DS打数机如何采集数据

2015-10-12 18:37| 发布者: ym| 查看: 24734| 评论: 3

摘要: 集搜客如何爬取数据集搜客是由MS谋数台和DS打数机两部分组成,MS谋数台是用来定义网页抓取规则的,DS打数机就是用来采集网页数据的,如图1,工作原理如下图所示。图1 集搜客的组成DS打数机的启动方法用MS谋数台做好 ...

用GS浏览器或者是MS谋数台做好采集规则后,就可以打开DS打数机采数据,而集搜客爬虫软件是非常灵活的,提供了多种使用方式供大家选择。下面就介绍几种不同的采数据方式,它们使用的爬虫窗口类型是不同的,控制方法也稍有不同,关于爬虫窗口的说明可查阅《DS打数机的窗口类型》


方式一:存规则,爬数据

做完采集规则并保存后,点击右上角的“爬数据”按钮,就会自动弹出爬虫窗口,直接采集样本网页,用的是测试窗口,菜单项较少,主要是用来验证抓取规则的正确性

1.1,用MS谋数台做好规则并保存。

1.2,再点击MS谋数台工具栏右上角的“爬数据”按钮,就会弹出DS爬虫窗口采集样本页面的信息。


方式二:DS打数机单搜/集搜

单独把DS打数机运行起来,在左侧就能看到规则列表,每个规则都有“单搜”和“集搜”按钮。单搜和集搜的使用说明与区别参看《集搜客专有名词:单搜和集搜》,简单概括一下,单搜只运行一个爬虫窗口,集搜可以运行多个爬虫窗口。

2.1,打开DS打数机(GS浏览器版爬虫在右上角点击“DS打数机”运行;火狐版爬虫是在工具菜单里点击“DS打数据”运行)。

2.2,搜索主题名,可以用*模糊匹配(前、后、中都可以含有*号)。

2.3,右击主题名,弹出菜单选择“统计线索”,可以看到有多少个线索等待抓取,线索就是网址。

2.4,点击单搜,输入线索数量(<=待抓取线索),右侧的浏览器就开始采集数据,类型是管理窗口。同时点击集搜,就会再多弹出一个DS爬虫窗口,类型是集搜窗口。


2.5,遇到提示“没有线索了,可添加新线索或者激活已有的线索”,说明线索已经采完一遍了。如果要再次采集,右击主题名,选择管理线索->激活所有线索;如果要采集其他相同结构的网页,选择添加,再把多个网址拷贝进去,就可以批量采集了。更多操作见《如何管理规则的线索》


方式三:用爬虫群并发采数据

爬虫群功能支持在一台电脑并发运行多个爬虫,整合了crontab爬虫调度程序、DS打数机主要菜单功能、数据库存储三大功能块。无需指定要采集多少条线索,爬虫群会自动把所有待采集的线索都采完一遍为止,让您可以高效采数据以及监控规则的运作情况。使用方法见《如何运行爬虫群》


方式四:编写crontab并发爬虫采数据

crontab程序(旗舰版功能)与爬虫群一样,可设置多个爬虫窗口并发采集数据,但是要自己编写程序。两者的区别是,crontab程序可以指定爬虫窗口只采集哪一个主题任务,这样能大大提高稳定性效率,而爬虫群是把主题任务自由分配给爬虫窗口,效率稍微慢点。详情可阅读文章《如何通过crontab程序实现周期性增量采集数据》


若有疑问可以集搜客网络爬虫
12

鲜花

握手

雷人

路过
7

鸡蛋

刚表态过的朋友 (19 人)

相关阅读

发表评论

最新评论

评论 Fuller 2016-11-2 12:58
qikexiu: 對於管理類的小白來說,我只是想要數據
点击www.gooseeker.com 首页右上角的“定制服务”,把你想要的数据告诉我们,我们帮你采集
评论 qikexiu 2016-11-2 12:40
對於管理類的小白來說,我只是想要數據
评论 Gary985 2016-2-24 15:50
写的真清楚,加油学习中。

查看全部评论(3)

GMT+8, 2024-11-21 18:30