可视化数据采集器import.io与集搜客评测对比（上）

2016-3-15 10:52| 发布者: xandy| 查看: 11890| 评论: 0|原作者: 数风|来自: 集搜客社区

摘要: 最近国外一款大数据采集软件import.io比较火，在获得了90万美元的天使轮融资后，最近更是拿到了1300万美元的A轮融资，吸引了众多投资者的目光。

最近国外一款大数据采集软件import.io比较火，在获得了90万美元的天使轮融资后，最近更是拿到了1300万美元的A轮融资，吸引了众多投资者的目光，笔者也怀着好奇使用体验import.io的神奇功能，本人是中国的大数据采集软件集搜客GooSeeker的老用户，所以喜欢把两者放在一起对比，下面我把印象最深的几点功能对比说明，对应import.io的四大特色功能：Magic、Extractor、Crawler、Connector，分成上下两篇。

对于数据采集比较感兴趣的朋友，我希望能起到抛砖引玉的作用，大家一起分析数据采集的技术亮点。

1. Magic（Import.io） VS 天眼和千面（集搜客）

Magic: 正如单词magic的原意“魔法”一样，import.io给Magic赋予了魔法般的功能，用户只要输入网址，Magic工具就能把网页中的数据整齐规范地神奇地抓下来。

如图1所示，输入58同城租房信息网址后，Magic会自动对网页数据进行采集，操作简单。但可以看到有些列，会存在漏采的情况，且每页需要点“Next page”才能进行采集，无法自动翻页。当然，还有很多网页几乎什么都采集不下来，比如，新浪微博。

无论如何，我感觉很神奇：

他怎么知道我想要什么信息？
是不是有人在后台预先做好的？
有些网址输入以后等待时间较短，有些网址输入以后等待时间很长，难道真的有人在后台做采集规则？

图1：Magic自动抓取示例

上图是import.io的Magic功能的界面截图，纯web界面，不用安装额外的软件，使用十分方便。总结一下：

优点：适应任何网址，操作非常简单，自动采集，采集结果可视化。
缺点：无法选择具体数据，无法自动翻页采集（是我没用熟？）。

GooSeeker的天眼和千面系列：集搜客的天眼和千面分别针对电商和微博发布的数据采集便捷GUI界面，只要将网址输入，就能将目标数据规范整洁地采集下来。

如图2所示：展示的是博主采集工具（微博的多方面数据分别都有采集管理界面），输入博主主页链接，就能调度爬虫，对博主主页下的信息进行采集，如微博内容、转发、点评等数据。

图2：GooSeeker微博博主采集界面示例

界面也很简洁，与Import.io相比，有个最大的不同就是用户自己运行爬虫群，采集量大那就多运行一些，而且能直接得到原始数据，是存在本地硬盘上的做了结构化转化的XML格式的结果文件。

优点：操作非常简单，能自动翻页采集，微博上能看到的重要字段都采下来。
缺点：采集数据字段已限定，仅能采集GooSeeker官方限定的网站。

从上分析可以看出，Magic和GooSeeker的天眼、千面在操作上都非常简单，基本都属于纯傻瓜式操作，很适合只想专注于业务问题，不想为技术问题所分心的用户，也是纯小白学习数据采集和使用数据结果的好起点。但Magic在采集结果可视化上要比天眼及千眼的适用性更广，缺点就是大数据量的采集场景不可控，而天眼和千面专注于几个主流网站，优势主要体现在可以完成大数据量的采集，比如，一个专业的市场研究或者消费者研究团队，需要百万、千万级的数据，只要你运行足够多的网络爬虫，不会因为采集量的问题而拖你数据研究的后腿。

2. Extractor（import.io） VS 整理箱（集搜客）

Extractor：Extractor翻译过来就是提取器，如果从实体的角度去理解，那就是将网址中想要的信息一个个提取出来的一个小程序（可能是一组脚本）；如果从采集目标的角度去理解，那就是采集特定网页结构的一个规则。同Magic不同，import.io的Extractor（以及后面的另外两个功能）是个独立可运行的软件，有非常直观的可视化界面，能直观地将提取的信息展示出来。

如图3所示：import.io的Extractor很像一个改造过的浏览器，在工具条中输入网址，待网页显示出来后，在浏览器中选择需要抓取的数据，就能将单页同结构的数据整列规范有序地采集下来。

图3：Extractor提取数据示例

优点：灵活采集，操作简单，可视化程度高。
缺点：对采集数据的结构化程度要求很高，对于结构化程度较差的数据，不能很好的进行采集。

GooSeeker整理箱：集搜客宣称的是“建个箱子，把你要的内容丢进去”，这个箱子就是所谓的整理箱，原理是将需要提取的信息一个个拖到箱子里面一一映射到整理箱，集搜客程序就能自动生成提取器（一段脚本程序），提取器自动存入云服务器，可分配给世界各地的网络爬虫进行提取。

如图4所示，import.io顶部的一条工具条在GooSeeker这里展开成了一个工作台，在工作台上创建箱子，然后通过映射操作把网页上的内容丢到箱子中。想要什么就把什么丢进箱子。原理看起来很简单，但是面对一个箱子大界面和诸多的HTML节点，对新手来说有点压力，当然，界面复杂换来的是能处理更多复杂的情形，因为有更多控件可用。