问:云采集能否采集天猫的数据
答:集搜客GooSeeker并不刻意提“云采集”这个概念。根据产品功能介绍一文,GooSeeker可以部署在任何地点,部署在云服务器上的话,你不妨称其为“云采集”。如果采用云部署,要着重考察几点:
1)运行在云上的采集器能否被观察到?
如果在云服务器上运行的程序是个黑盒子,就像我们把nutch的程序核心集成到我们自己的程序中,它在运行时出现问题,怎么去诊断?怎样去排除故障?那么必须需要一套监控程序,最好是可视化的。而GooSeeker是图形化界面,只要运行远程桌面,云服务器上的采集器可以和本地的一样维护
2)采集器能自动为你输入账号密码,甚至验证码?
采集过程还有其他一些互动,如果是在云服务器上运行的黑盒子,这些互动都无法执行了。而GooSeeker远程桌面方式不存在这个障碍
3)内容能采全吗?
现在JavaScript生成的内容越来越多,很多内容没在浏览器上显示的时候就根本不会下载,例如,电商网站上的商品图片和他们的地址,如果没有在当前屏幕上显示,html img标签的src属性只是指向一个不存在的网址,抓下来也没有用。只有在实际屏幕上显示的时候才会把src改成正确的网址。这仅仅是一个场景,还有大量场景都是“即看即下载”。没有显示设备的云采集是无能为力的。所以,GooSeeker即使部署在云上,也要保留图形化界面。
4)固定IP是否会被封锁?
几乎每个大型网站都会对访问流量进行严格控制。采集网页数据的大部分情形不会像百度爬虫那样逐步扩展范围,我们总是想在尽可能短的时间内完成采集任务,从云服务器上发起的采集被封锁是大概率事件。数据采不全,很多场合就是没有价值的。
|
|
|
|
|
共 1 个关于本帖的回复 最后回复于 2016-10-18 09:29