连续动作：自动选择下拉菜单采集数据—以知网为例

2017-1-3 18:13| 发布者: ym| 查看: 21606| 评论: 0

摘要: 一、操作步骤用中国知网的期刊为例，展示连续动作中选择动作和爬虫路线中翻页的组合。本次教程要实现的是先检索2016年发表的期刊，再对检索结果进行采集，流程如下图所示：为了实现这个，需要建立两级规则，第一级 ...

配套软件版本：V9及更低 集搜客网络爬虫软件

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、操作步骤

用中国知网的期刊为例，展示连续动作中选择动作和爬虫路线中翻页的组合。本次教程要实现的是先检索2016年发表的期刊，再对检索结果进行采集，流程如下图所示：

为了实现这个，需要建立两级规则，第一级规则通过连续动作来自动选择发表年份，第二级规则负责采集期刊内容和翻页。操作步骤如下：

二、案例规则+操作步骤

第一步：定义第一级规则抓取内容

1.1，加载页面

打开集搜客网络爬虫，输入想要采集的样本网址并按Enter键，看到浏览器加载出网页后，点击右上方的“定义规则”。

注意：这里的截图和文字说明都是集搜客网络爬虫版本。如果您安装的是火狐插件版，那么就没有“定义规则”按钮，而是应该运行MS谋数台。

1.2，输入主题名

在工作台“主题名”处输入第一级规则的主题名，再点击“查重”，提示“该名可以使用”，就可以继续，否则请重新命名。这里命名主题名为“中国知网期刊检索前”。

Tips：虽然这一级规则主要是为了做选择动作，但为了保证页面已经加载完成，连续动作可以顺利进行，通常在这级规则建立一些抓取内容。

1.3，内容映射

选择“期刊”作为抓取内容，双击期刊，在弹出的标签栏处输入关键内容，整理箱命名为检索前，并勾选为关键内容。直观标注的基础操作在这里不赘述，不懂的请参考教程《采集网页数据》。

第二步：定义第一级规则连续动作

2.1，输入目标主题名

点击“连续动作”工作台，输入目标主题名（也就是第二级规则的主题名，这里命名为“中国知网期刊检索后”），点击“谁在用”，弹出的窗口没有信息，说明这个主题名没有被占用，可以继续后面的操作，否则就需要换一个主题名。

2.2，创建第一个连续动作——起始年份选择2016

2.2.1，找到定位表达式，填写动作名称

点击新建，选择动作类型为“选择”，点击一下起始年份，会自动定位到相应节点，选择“显示XPath：偏好id”，程序会自动显示对应的Xpath路径，再点击搜索，可以看到这个路径能找到唯一的节点，可作为动作的定位表达式，将这个路径复制到定位表达式处，在动作名称写上文字，是为了方便清楚每个动作的用处。

Tips：选择类型的连续动作，定位表达式必须写到下拉菜单的select节点，而不能写到某一个选项的option节点，否则运行时会报错。

2.2.2，高级设置

我们需要实现的是采集2016年发表的期刊，所以需要在起始年份和终止年份都选择点击2016年，这就需要在连续动作的高级设置里做约束。

额外延时：这里填2秒，表示做完这个动作后延迟2秒再去做第二个动作，是为了避免动作做得太快而页面还没做出反应导致采集失败。
起点：起始年份对应的select节点下有42个option，其中第41个option对应的就是2016年的选项，所以需要在高级设置里起点填41（表示第一次做动作时就选择第41个option）。
跨度：跨度填10（表示下一次动作的位置跟这一次动作相差10个节点，即下一次去选择第51个option，实际上并不存在第51个option，因为这里只需要选择2016年，所以这样设置之后，程序在选择了2016年后找不到下一次动作的节点，就会停止动作）。

2.3，创建第二个连续动作——终止年份选择2016