最近,Kimono labs被大数据公司Palantir收购,受到各方面的关注。作为一家以网页数据打标签和采集为主营业务的初创公司,如何获得Palantir这家独角兽公司的青睐?它到底有什么魔力?作为一个GooSeeker可视化网络爬虫的设计者,今天就带大家来了解一下KimonoLabs的打标签功能。 一、Kimono Labs是什么?Kimono Labs旨在整合网页内容,把非结构化的html网页内容变成结构化数据,并通过api开放出来。 互联网是个实实在在的大数据库,要发掘它,第一步就是要结构化转换,这样才能被数据挖掘程序所用,所以,Kimono Labs解决的是大数据源头问题。 使用Kimono Labs做上述工作的过程,被称为“kimonify”网站内容,大致过程是:
二、软件安装KimonoLabs以浏览器扩展的形式发布,安装在Chrome上。如图1所示,在应用商店进行添加即可启动安装。 GooSeeker网络爬虫软件同样也是浏览器扩展,安装在火狐(Firefox)之上,从GooSeeker官网上下载安装。 图1 Kimono Labs安装 三、给网页打标签如图2所示,如果要采集所有图片下面的链接信息,只需要先点击游览器上的Kimono标志,再点击图片下方的链接信息,Kimono就会一次性将相同结构的信息全部采集下来。 图2 Kimono Labs操作示例 在图2左上角可以看到一个45的标志,表示相同结构的数据有45条。如果想采集其他字段,就可以使用后面的+键,就像表格一样,每列对应一组数据。是不是很简单,完全没有技术难度,相信每个小白都能轻松学会。这步操作跟import.io的Extractor和GooSeeker的MS谋数台 有异曲同工之妙,通过在页面上点击就能实现对网页数据的提取。 四、Kimono Labs进阶显然,我们不仅仅需要采集当前页面,常常需要翻页采集,或者跳转到更深层次去采集数据,下面看看Kimono Labs翻页和层级抓取的操作方法。 举例来说,按照图2所示的方法,采集了图片下方的链接,形成了图3所示的采集结果。下一步是想抓这些链接中的详细信息,那么在这个结果展示界面上单击图3所示的某个链接,浏览器就进入到下级页面(图4),这样,样本页面就加载好了,接下来,跟图2的操作一样,给需要的内容打标签,就能完成对第二级信息的采集。其他链接的第二页信息也会自动进行采集。 图3 Kimono Labs层级采集示例1 图4 Kimono Labs层级采集示例2 上面讲述了深入到下层采集数据的方法,接下来看怎样翻页。 Kimono Labs翻页功能相对要复杂一些,需要用户自己构造网址来实现翻页,对于许多网址,翻页后网址的变化仅仅是末端数字的变化,Kimono Labs提供了一个网址输入的入口,用户在Excel上将构建的网址直接批量导入即可(如图5所示),就可以对这些网址的数据进行批量采集了。 现在问题来了:大量网站使用AJAX动态技术,“下一页”是没有独立网址的,Kimono Labs怎样解决?也许因为使用时间不长,笔者暂时没有找到答案。 图5 Kimono Labs添加网址 五、GooSeeker给网页内容打标签从GUI设计角度看两者有很大不同:
图6 GooSeeker MS谋数台GUI GooSeeker允许直接在浏览器的页面上做标注,点击一下则将选中网页内容,底色变成黄色;再点击一下,就能生成一个标签,输入一个名字并点击旁边的勾就打好了标签。可在工作台中看到已经放到整理箱(存数据的箱子)了。 浏览器上只能给可见的内容打标签,而DOM剖析窗口可以给不可见的内容打标签,例如html attribute,comment,script等html标签和属性,用鼠标右键菜单执行标注过程。而且在DOM剖析窗口上,可以准确选择某一个text节点,而不是把整个html元素内容采集下来。 由此可见,GooSeeker分成了高精度标注和便捷标注两种方式。除GUI之外的功能,GooSeeker与import.io更有可比性,可参看关于import.io的评测文章。 六、Kimono Labs总括综上,Kimono Labs和import.io,GooSeeker等一样,旨在将网页数据采集变得便捷易用,让没有技术背景的用户都能去获取数据,所以可视化打标签是重要的功能特征, Kimono Labs短时间内积累12.5W+用户,这个是重要原因。 Kimono Labs被大数据公司Palantir收购了,Kimono Labs软件平台服务已经停止。仅仅测试了Kimono Labs的一些基本功能,是否有更复杂的功能也无法深究了。 从Kimono labs的被收购这件事来看,大数据时代人们对数据的需求是十分广泛的,可视化数据采集服务也一定会得到越来越多的青睐。 |