数据采集、爬虫路线、连续动作三者的执行顺序

2017-1-10 11:29| 发布者: ym| 查看: 19306| 评论: 0

摘要: 一、基本概念 1.1 数据采集 数据采集指的是我们在“创建规则”工作台定义的抓取内容。 1.2 爬虫路线 爬虫路线指的是在“爬虫路线”工作台定义的线索,包括下级线索、翻页线索和模拟点击等。 1.3 连续动作 连续动作指 ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、基本概念

1.1,数据采集

数据采集指的是我们在“创建规则”工作台定义的抓取内容。


1.2,爬虫路线

爬虫路线指的是在“爬虫路线”工作台定义的线索,包括下级线索、翻页线索和一次性的模拟点击等。


1.3,连续动作

连续动作指的是在“连续动作”工作台定义的线索,包括悬浮、点击、滚屏、选择等多种动作类型。


二、执行顺序

总体上,爬虫先进行数据采集,再执行爬虫路线或连续动作。如果一个规则里既有连续动作又有爬虫路线,那么爬虫会先执行连续动作再执行爬虫路线。


2.1,数据采集+爬虫路线(下级线索)

同一个规则的数据采集和爬虫路线的下级线索没有先后之分,下级线索只是在数据采集过程中把当前页面的链接保存起来,并生成线索给第二级规则。


2.2,数据采集+爬虫路线(翻页线索/模拟点击)

DS打数机会先进行数据采集,再执行爬虫路线的翻页线索或模拟点击。


2.3,数据采集+连续动作

DS打数机会先进行数据采集,再执行连续动作。


2.4,数据采集+连续动作+爬虫路线(翻页线索)

一个规则同时存在连续动作和翻页线索,DS打数机会先进行数据采集,再执行连续动作,最后执行翻页线索。

Tips:上图所示的流程图适用于连续动作后,页面的翻页区域仍在当前页的情况。如果连续动作后页面发生变化,已经没有翻页区域,那么就要在主题B加一个回退的动作,让页面回去原来的页面,才能继续做翻页。流程图如下所示。


三、连续动作内各个步骤执行顺序

连续动作各个步骤的执行顺序跟定义的步骤编号一致,也就是先做步骤1,再做步骤2……点击排序会弹出管理窗口,可以对步骤顺序进行调整。

如下图所示,DS打数机在进行数据采集后,会先选择起始年份,再选择终止年份,最后提交。


上篇文章:《如何找到合适的连续动作组合》


若有疑问可以集搜客爬虫软件
2

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (2 人)

相关阅读

最新评论

GMT+8, 2024-11-21 16:34