快捷导航

如何运行爬虫群

2015-12-16 16:50| 发布者: ym| 查看: 13362| 评论: 6

摘要: 1、运行爬虫群 这是一个准备工作,一旦准备好,就可以无人干预地长久运行,这样,您只需专注于抓取规则定义即可。 1.1 配置爬虫群 配置过程主要解决以下几个问题: 在一台计算机上同时运行多少个并发的爬虫窗口? ...

GooSeeker爬虫从V5.6.0版本以来增加了爬虫群功能,支持在一台电脑并发运行多个爬虫。爬虫群与做规则是可以同时运作的,但爬虫群只会采集调度池中的规则,想要自动采集哪个规则,就把它丢到调度池里,调度池相当于一个指挥中心,会自动分配采集任务给各个爬虫,所以,运行爬虫群、做规则、调度这三步是必须的,三者不分先后顺序。

一、采集规则

首先要有自己的采集规则,可以是自己做的规则,也可以是下载别人的,具体有下面三种方式:

1)自己动手做规则,选择一个网页作为样本定义采集规则,具体操作请学习gooseeker使用教程

2)下载资源库的规则直接套用,资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等多种网站的采集规则模板,可以满足大多数人的数据需求

3)找人定制采集规则,如果资源库没有您要的网站规则,可以找集搜客定制,或者,发布规则悬赏任务,找到合适的人帮你做规则

二、运行爬虫群

要通过爬虫群来实现自动化采集,需要配置好爬虫群以及规则的调度,最后运行爬虫群就会采数据。

2.1 爬虫群配置

配置过程主要解决以下两个问题:

1)在一台计算机上同时运行多少个并发的爬虫窗口?这个由配置的线程数量决定。

2)DS打数机软件启动时就把这些窗口打开?还是手工打开?这就是自启动模式。

配置过程的基本操作:

选择DS打数机的菜单 爬虫群->配置,弹出配置窗口,点击添加就会新建一个爬虫(DS打数机窗口),想要自动弹出爬虫的话就勾上自启动,再点击保存,最后关闭窗口。

2.2 启动爬虫群

自动启动:设置了自启动爬虫的,重启DS打数机就会自动弹出多个爬虫(DS窗口)。

手工启动:没有设置自启动爬虫的,要打开DS打数机爬虫群菜单->启动,弹出爬虫列表,逐个选择确定后就会弹出新的DS窗口。

三、调度规则

 每个规则都对应一个运行/暂停按钮以及一个调度按钮,想要自动采集哪个规则,就对它设置调度,可同时调度多个规则,每增加调度一个规则,都要点击调度按钮进行设置最后是由调度池统一分配采集任务给各个爬虫。

3.1 调度

1)DS打数机里点击爬虫群菜单->调度,进入到会员中心的规则管理页面,能看到自己的所有规则,想要自动采集哪个规则,就点击它的调度按钮。

2)然后进入调度页面,想要转换excel格式的话,就勾上结果入库,其他设置都是调试好的,可以不用修改,我们直接默认就行,最后点击确认就搞定了,这样爬虫每采完一轮线索就会自动把数据入库。

3)调度后,想要暂停采集***主题,就点击运行/暂停按钮,那么爬虫群会在采完当前任务后暂停***主题的采集,这是因为一轮线索数量默认为20,爬虫要采完这批线索才会停下来,如果想要立刻停止采集,那就直接关掉爬虫群吧。

4)通过调度参数的设置,可以控制采集时间、采集速度、数据入库、翻页、周期增量采集最新数据等等。想要抓取更加灵活的话,请根据实际网页情况设置调度参数,有时候要经过多次的测试才能找到合适的参数组合,每个调度参数的意义可查阅教程crontab爬虫调度

注意:通过最大允许运行爬虫数设置,一个windows账号可以并发运行1-20个DS打数机窗口,请兼顾采集稳定性和效率设置合理的爬虫数量,并且控制好规则的采集速度(由调度参数:线索间等待最短时间、线索间等待最长时间、延迟抓取时间、滚屏速度、滚屏次数等控制)。

3.2 激活/添加线索

如果规则里有等待抓取的线索,爬虫就会自动调用规则采数据;若没有等待抓取的线索,想要爬虫采集数据,就要先去会员中心爬虫管理->规则管理里添加/激活线索

想要重复采集***主题下的所有线索,但不想每次手工激活线索,就可以在调度里做激活线索设置,请根据需要选择激活时间类型、时间、激活方式。(无条件激活表示即使还没采完所有线索,只要到了时间就会重新激活一遍所有线索;无剩余线索时激活表示即使到了时间,但也要采完所有线索后才激活一遍)

四、导出数据,转格式

在“调度”里设置了自动入库的话,DS打数机采数据并自动上传到会员中心的数据库里,等采完数据后,到爬虫管理->规则管理或数据管理,点击导出数据就能得到excel表的zip压缩包,并且在历史记录里可以查看导出记录以及重复下载。

没有设置自动入库的话,就要进入对应规则的管理页面中,点击激活入库后,再把本地电脑中的数据文件打包为zip,再点击导入数据,从附件里选择单个xml文件或xml文件的压缩包zip,导入成功后就能导出数据。

【注意】可以免费导出1万条数据,超额请购买“专业版or旗舰版爬虫”或“数据仓库”来扩大储存量后再继续导出数据,或购买“仓库清扫”把原有数据清理后再继续使用。

爬虫群模式是一种本地采集模式,抓下来的数据文件还是存在本地电脑的DataScraperworks文件夹中,勾了自动入库的话,每采完一轮线索数量就会自动把xml文件打包成zip,一次最大导入20M的zip数据包,超过的话就会导入失败,入库成功后就把xml文件转移到imported文件夹里。

没有勾自动入库的话,请手工把xml文件打包为zip再导入数据,一次最大导入10M的zip数据包。

五、关于爬虫群模式

爬虫群模式是在一台电脑里同时打开多个爬虫(即DS打数机窗口),通过设置较大的爬虫数量和合理的抓取速度,不仅降低了封锁IP风险,还能抓到更多数据,是非常稳定且高效的本地采集模式。它整合了crontab爬虫调度程序、DS打数机主要功能、数据库存储三大功能块,让您自由控制爬虫的数量以及运作情况,还有专享的数据库,高效处理千万级数据。


若有疑问可以集搜客网络爬虫
27

鲜花
2

握手

雷人

路过

鸡蛋

刚表态过的朋友 (29 人)

相关阅读

发表评论

最新评论

评论 shenzhenwan10 2017-6-8 16:37
closeyoo: 有一个小问题想请教一下~ 如何在爬虫群里运行设置了连续动作的两级主题? 现在我把带线索的模拟点击主题和不带线索的点击后抓取数据主题都放进了爬虫群里,启动 ...
如果你有规则A, 连续动作后执行规则B, 最后的结果由规则B生成. 那么你需要如下配置爬虫群:
对于规则A, 爬虫群设置里勾选"抓取"
对于规则B, 爬虫群设置里不勾选"抓取", 只勾选"结果入库"
评论 closeyoo 2017-6-8 15:57
有一个小问题想请教一下~ 如何在爬虫群里运行设置了连续动作的两级主题?
现在我把带线索的模拟点击主题和不带线索的点击后抓取数据主题都放进了爬虫群里,启动爬虫群,模拟点击主题运行后但不像打数机一样自动调用第二级主题了。请问需要怎么设置呢?~
评论 Fuller 2016-5-25 12:00
jslslyd: 设置每天定时采集数据必须打开打数机吗,可否在电脑不开机的情况下自动定时采集并入库呢
采集数据是需要投入计算机资源的,因为是免费使用,那么需要每个用户自己去采集,如果自己的电脑不便于采集,可以委托给我们,但是收费的服务
评论 jslslyd 2016-5-25 11:05
设置每天定时采集数据必须打开打数机吗,可否在电脑不开机的情况下自动定时采集并入库呢
评论 Fuller 2016-3-11 23:51
1261181988: 好晕。。。。
如果是要抓微博的话,有更简洁的界面 http://www.gooseeker.com/land/weibo.html
评论 1261181988 2016-3-11 23:08
好晕。。。。

查看全部评论(6)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-24 18:31