用GS浏览器或者是MS谋数台做好采集规则后,就可以打开DS打数机采数据,而集搜客爬虫软件是非常灵活的,提供了多种使用方式供大家选择。下面就介绍几种不同的采数据方式,它们使用的爬虫窗口类型是不同的,控制方法也稍有不同,关于爬虫窗口的说明可查阅《DS打数机的窗口类型》。 方式一:存规则,爬数据 做完采集规则并保存后,点击右上角的“爬数据”按钮,就会自动弹出爬虫窗口,直接采集样本网页,用的是测试窗口,菜单项较少,主要是用来验证抓取规则的正确性。 1.1,用MS谋数台做好规则并保存。 1.2,再点击MS谋数台工具栏右上角的“爬数据”按钮,就会弹出DS爬虫窗口采集样本页面的信息。 方式二:DS打数机单搜/集搜 单独把DS打数机运行起来,在左侧就能看到规则列表,每个规则都有“单搜”和“集搜”按钮。单搜和集搜的使用说明与区别参看《集搜客专有名词:单搜和集搜》,简单概括一下,单搜只运行一个爬虫窗口,集搜可以运行多个爬虫窗口。 2.1,打开DS打数机(GS浏览器版爬虫在右上角点击“DS打数机”运行;火狐版爬虫是在工具菜单里点击“DS打数据”运行)。 2.2,搜索主题名,可以用*模糊匹配(前、后、中都可以含有*号)。 2.3,右击主题名,弹出菜单选择“统计线索”,可以看到有多少个线索等待抓取,线索就是网址。 2.4,点击单搜,输入线索数量(<=待抓取线索),右侧的浏览器就开始采集数据,类型是管理窗口。同时点击集搜,就会再多弹出一个DS爬虫窗口,类型是集搜窗口。 2.5,遇到提示“没有线索了,可添加新线索或者激活已有的线索”,说明线索已经采完一遍了。如果要再次采集,右击主题名,选择管理线索->激活所有线索;如果要采集其他相同结构的网页,选择添加,再把多个网址拷贝进去,就可以批量采集了。更多操作见《如何管理规则的线索》 方式三:用爬虫群并发采数据 爬虫群功能支持在一台电脑并发运行多个爬虫,它整合了crontab爬虫调度程序、DS打数机主要菜单功能、数据库存储三大功能块。无需指定要采集多少条线索,爬虫群会自动把所有待采集的线索都采完一遍为止,让您可以高效采数据以及监控规则的运作情况。使用方法见《如何运行爬虫群》 方式四:编写crontab并发爬虫采数据 crontab程序(旗舰版功能)与爬虫群一样,可设置多个爬虫窗口并发采集数据,但是要自己编写程序。两者的区别是,crontab程序可以指定爬虫窗口只采集哪一个主题任务,这样能大大提高稳定性和效率,而爬虫群是把主题任务自由分配给爬虫窗口,效率稍微慢点。详情可阅读文章《如何通过crontab程序实现周期性增量采集数据》。 |