快捷导航

运用爬虫群,快速采集数据

2019-2-26 17:59| 发布者: Fuller| 查看: 862| 评论: 0

摘要: 做好规则后,可以通过以下三种方式运行规则:1.在定义规则界面,直接点击右上角“采数据”按钮。2.在DS打数机界面,用单搜/集搜启动采集。3.在会员中心调度规则,用爬虫群采集数据。前两种方式在前面的教程讲过了。 ...

做好规则后,可以通过以下三种方式运行规则:

1. 在定义规则界面,直接点击右上角“采数据”按钮。

2. 在DS打数机界面,用单搜/集搜启动采集。

3. 在会员中心调度规则,用爬虫群采集数据。

前两种方式在前面的教程讲过了。这两种采集方式主要的缺点是,要手动导入/导出数据,操作步骤比较多,麻烦。第三种方式,爬虫群方式可以自动导入/导出数据,同时运行的爬虫窗口数目可以设置,最多达20个。而且爬虫群方式还可以做很多高级的设置,比如限制翻页次数,增量采集,定时激活采集等等。

那么,怎样运行爬虫群来采集数据?

一、进入会员中心

做好规则后并保存规则后。点击网址输入框后面的“普通浏览”按钮,进入普通浏览模式。在地址输入栏输入官网网址https://www.gooseeker.com,然后登陆会员中心。

二、进入规则管理
    进入会员中心->规则管理,选中规则,点击主题名或者点击管理,进入到这个规则的管理页面。


三、调度规则
    在规则管理页面,点击“调度”按钮,进入这个规则的调度设置。


    1.  抓取步骤。系统都已经打勾选中,不用再改动。按照这样的抓取步骤,数据爬取结束后,在会员中心,用户直接导出打包好的excel数据。如果只想要数据自动导入/导出,可以直接点击确认,就可以启动采集了。如果还想设置翻页次数,多爬虫窗口跑数据,那还要去下面的基本调度设置。


2. 基本调度设置
    对于初学者来说,上图基本调度设置里,前面三个参数可以先不用管它。主要看第四个参数:最大允许运行爬虫数。比如最大允许爬虫数设为5,那么这个规则运行起来后,可以最多5个爬虫窗口同时爬数据。

    注:最大允许爬虫数大于2的时候,要先在打数机进行爬虫群设置。怎样在打数机进行爬虫群设置?在浏览器右上方点击“DS打数机”按钮,进入打数机管理窗口。


    点击爬虫群-配置-添加,比如你想要5个爬虫窗口并行爬数据,那么在这里添加5个爬虫(线程),而且给每个爬虫起个名字(随便起)。打数机这里设置好以后,点击运行全部,可以看到5个爬虫窗口弹出来。注:每个爬虫线程后面的自启动,如果选中,那么打开打数机后,这个爬虫窗口会自动弹出来。

    再到会员中心,把最大允许爬虫数设置成5。如果不需要高级设置,那设置到这里就结束了,点击确认,开始采集。如果需要高级设置,比如翻页次数,滚屏次数,再继续下面的高级设置。
3. 高级设置
   高级设置里,对初学者来说,最有用的依次是翻页次数,滚屏速度,滚屏次数
   爬一个有很多页的列表页,比如1000页,如果只想爬前面的30页,可以限制同一线索内翻页次数,把翻页次数设置为30。采集完30页,爬虫就停止采集。如果选中不限制翻页,爬虫会把这1000页采集完才停止。
    一般网页比较长,或者加载比较慢的时候,可以把滚屏次数适当放大一些,设置成大于1的数,滚屏次数越大,采集越慢。


    调度设置完成后,点击页面下方的绿色按钮“确认”,就可以开始采集了。可以看到爬虫窗口启动起来,开始采集数据。(注:爬虫窗口也称之为DS打数机窗口)
四、导出数据
    采集完成后,在会员中心的规则管理页面,点击“导出数据”即可导出excel表格数
据。








鲜花

握手

雷人

路过

鸡蛋

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-4-25 03:50