给网页打标签——KimonoLabs和GooSeeker对比评测

2016-4-14 10:55| 发布者: xandy| 查看: 6004| 评论: 0|来自: 集搜客社区

摘要: 最近,Kimono Labs被大数据公司Palantir收购,受到各方面的关注。作为一家以网页数据打标签和采集为主营业务的初创公司,如何获得...

最近,Kimono labs被大数据公司Palantir收购,受到各方面的关注。作为一家以网页数据打标签和采集为主营业务的初创公司,如何获得Palantir这家独角兽公司的青睐?它到底有什么魔力?作为一个GooSeeker可视化网络爬虫的设计者,今天就带大家来了解一下KimonoLabs的打标签功能。

一、Kimono Labs是什么?

Kimono Labs旨在整合网页内容,把非结构化的html网页内容变成结构化数据,并通过api开放出来。

互联网是个实实在在的大数据库,要发掘它,第一步就是要结构化转换,这样才能被数据挖掘程序所用,所以,Kimono Labs解决的是大数据源头问题。

使用Kimono Labs做上述工作的过程,被称为“kimonify”网站内容,大致过程是:

  1. 选择一个web页面;
  2. 选择感兴趣的数据,给它指定一个标签;
  3. 从而,所选择的内容就被保存,转换成JSON对象、CSV或者RSS等。

二、软件安装

KimonoLabs以浏览器扩展的形式发布,安装在Chrome上。如图1所示,在应用商店进行添加即可启动安装。

GooSeeker网络爬虫软件同样也是浏览器扩展,安装在火狐(Firefox)之上,从GooSeeker官网上下载安装。

图1 Kimono Labs安装

三、给网页打标签

如图2所示,如果要采集所有图片下面的链接信息,只需要先点击游览器上的Kimono标志,再点击图片下方的链接信息,Kimono就会一次性将相同结构的信息全部采集下来。

图2 Kimono Labs操作示例

在图2左上角可以看到一个45的标志,表示相同结构的数据有45条。如果想采集其他字段,就可以使用后面的+键,就像表格一样,每列对应一组数据。是不是很简单,完全没有技术难度,相信每个小白都能轻松学会。这步操作跟import.io的Extractor和GooSeeker的MS谋数台 有异曲同工之妙,通过在页面上点击就能实现对网页数据的提取。

四、Kimono Labs进阶

显然,我们不仅仅需要采集当前页面,常常需要翻页采集,或者跳转到更深层次去采集数据,下面看看Kimono Labs翻页和层级抓取的操作方法。

举例来说,按照图2所示的方法,采集了图片下方的链接,形成了图3所示的采集结果。下一步是想抓这些链接中的详细信息,那么在这个结果展示界面上单击图3所示的某个链接,浏览器就进入到下级页面(图4),这样,样本页面就加载好了,接下来,跟图2的操作一样,给需要的内容打标签,就能完成对第二级信息的采集。其他链接的第二页信息也会自动进行采集。

图3 Kimono Labs层级采集示例1

图4 Kimono Labs层级采集示例2

上面讲述了深入到下层采集数据的方法,接下来看怎样翻页。

Kimono Labs翻页功能相对要复杂一些,需要用户自己构造网址来实现翻页,对于许多网址,翻页后网址的变化仅仅是末端数字的变化,Kimono Labs提供了一个网址输入的入口,用户在Excel上将构建的网址直接批量导入即可(如图5所示),就可以对这些网址的数据进行批量采集了。

现在问题来了:大量网站使用AJAX动态技术,“下一页”是没有独立网址的,Kimono Labs怎样解决?也许因为使用时间不长,笔者暂时没有找到答案。

图5 Kimono Labs添加网址

五、GooSeeker给网页内容打标签

从GUI设计角度看两者有很大不同:

  •  Kimono Labs跟原始网页融合得很好,是真正意义上的“网页扩展”,Kimono Labs的功能像工具条一样浮在原始网页上
  •  GooSeeker更像是一个包含浏览器的独立软件,浏览器是其中一个窗口,绝大多数功能都集中在工作台(图6的悬浮窗口)上,另外还有一个DOM剖析窗口

图6 GooSeeker MS谋数台GUI

GooSeeker允许直接在浏览器的页面上做标注,点击一下则将选中网页内容,底色变成黄色;再点击一下,就能生成一个标签,输入一个名字并点击旁边的勾就打好了标签。可在工作台中看到已经放到整理箱(存数据的箱子)了。

浏览器上只能给可见的内容打标签,而DOM剖析窗口可以给不可见的内容打标签,例如html attribute,comment,script等html标签和属性,用鼠标右键菜单执行标注过程。而且在DOM剖析窗口上,可以准确选择某一个text节点,而不是把整个html元素内容采集下来。

由此可见,GooSeeker分成了高精度标注和便捷标注两种方式。除GUI之外的功能,GooSeeker与import.io更有可比性,可参看关于import.io的评测文章。

六、Kimono Labs总括

综上,Kimono Labs和import.io,GooSeeker等一样,旨在将网页数据采集变得便捷易用,让没有技术背景的用户都能去获取数据,所以可视化打标签是重要的功能特征, Kimono Labs短时间内积累12.5W+用户,这个是重要原因。

Kimono Labs被大数据公司Palantir收购了,Kimono Labs软件平台服务已经停止。仅仅测试了Kimono Labs的一些基本功能,是否有更复杂的功能也无法深究了。

从Kimono labs的被收购这件事来看,大数据时代人们对数据的需求是十分广泛的,可视化数据采集服务也一定会得到越来越多的青睐。

若有疑问可以集搜客网络爬虫

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

GMT+8, 2024-11-22 08:30