用爬虫群采集数据

2020-12-2 19:30| 发布者: Fuller| 查看: 11155| 评论: 0

摘要: 1. 进入任务管理页面2. 选中任务。设置调度设置好调度参数,确认。自动弹出并发的爬虫群窗口,采集数据。本例中的任务名:JD-牛仔裤男。3. 调度参数说明并发爬虫窗口:这是爬虫群模式的特色。用几个爬虫窗口去并行采 ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《DS打数机采集数据


前一篇《启动数据采集》讲解了两种启动网络爬虫采集数据的简单方式,那两种是手工启动的。如果要采集的网址很多,要花费很多时间,可以按照本篇讲的,设置爬虫群,同时运行多个窗口快速采集,如果是旗舰版用户,还可以在至少5台电脑上同时采集。

1. 进入任务管理页面

2. 选中任务,设置调度

本例中,选中任务:JD-牛仔裤男。点击调度设置,设置好调度参数,确认。启动爬虫群,自动弹出多个并发的爬虫群窗口,采集数据。


3. 调度参数说明

并发爬虫窗口数:这是爬虫群模式的特色。用几个爬虫窗口去并行采集当前的任务,窗口越多,干活的手越多,会爬的越快。但是要注意电脑的承受能力,和网站的反爬。比如下面这个例子,并发爬虫窗口数设置为3,设置完成,点击最下面的确认按钮后。会弹出3个爬虫窗口来采集数据。(并发的爬虫群窗口有彩色环状标志


一批网址数量:如果一个任务待爬取的网址很多,比如有1000条,设置一批网址数量为20,那每个爬虫窗口每次拿20个网址去爬,爬完了,再去拿。这个参数,是为了把网址能分配给多个爬虫窗口,并行爬取,也可以控制爬取节奏。

批次间休息:每个爬虫窗口爬完一批网址,休息一段时间后,再去拿下一批网址。这个参数是为了控制爬取节奏,应对网站反爬。

网址间休息:爬虫窗口爬完一条网址后,休息一会儿,再爬下一个网址。这也是为了控制爬取节奏。

超时时长:有些网页加载很慢,要采集的关键内容一直没有加载出来,爬虫会一遍遍的扫描等待。但是也不能无限等待,设置一个时间,比如60s,60s时间到了,爬虫自动跳到下一个采集网页。

延迟抓取:有些网页打开比较慢,延迟抓取要设置的大一些,比如设置10s,表示等网页加载10s后,才开始采集。

滚屏采集:要打开滚屏,才能采集到完整的内容,一般设置次数2,速度2。次数越大,采集的越慢。如果要采集的内容,就在网页的最上方,不需要滚屏,可关掉滚屏。

控制翻页:如果想要限定翻页次数,选择是。

增量采集:在层级抓取时,在第一级任务设置这个参数,表示当第一级任务采集到新的下级网址,才会把新的网址传递给第二级规则,否则不传递下去。

其它设置中,

跳出重复翻页:有些网页,比如本例中的京东列表网页,翻页到最后一页的时候,点击下一页,还可以点击,但是一直在最后一页重复,设置了这个参数后,当某一页被重复采集了3次后,采集就中断退出了。

还有一些比较高级的设置,比如周期设置,网站登陆设置,可以在教程页搜索。

虽然上述参数有些多,但一般常用的是滚屏参数和控制翻页,其它的默认即可。设置完成后,点击确认,会弹出窗口,启动爬虫群,弹出并发的爬虫群窗口,爬虫群窗口上有彩色的环状标志。如上图所示。


上篇文章:《启动数据采集》                                               下篇文章:《查看和编辑网络爬虫规则


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-12-21 20:25