如何翻页抓取网页数据——以采集天猫搜索列表为例

2015-8-25 11:46| 发布者: HJLing| 查看: 58558| 评论: 24

摘要: 我们在抓取数据时，通常不会只抓取网页当前页面的数据，往往都会继续抓取翻页后的数据。本文就为大家介绍，集搜客GooSeeker网络爬虫如何在进行数据抓取时，自动抓取翻页后的数据。在MS谋数台的爬虫路线工作台有三种 ...

我们在抓取数据时，通常不会只抓取网页当前页面的数据，往往都会继续抓取翻页后的数据。本文就为大家介绍，集搜客GooSeeker网络爬虫如何在进行数据抓取时，自动抓取翻页后的数据。
在MS谋数台的爬虫路线工作台有三种线索方式可以实现自动抓取翻页后的数据，分别是定点线索、记号线索、相对线索。本文主要介绍比较常用的记号线索。

注释1：本文所演示的翻页抓取规则，可到资源库下载学习：翻页抓取_天猫搜索列表

一、完成抓取内容映射

以天猫搜索列表为例。
理箱中创建抓取内容，并完成映射。

图1 内容映射

如图1，具体操作步骤如下：

在整理箱中创建抓取内容，并完成映射，选择网页上要抓取的内容映射到整理箱后，跳转到爬虫路线工作台设置翻页线索。

注释：关于抓取内容基本映射操作看参考：《集搜客入门——三步掌握集搜客》；
做完抓取内容基本操作后，为了抓取网页上所有相同产品的数据本规则还使用了样例复制管理功能，可参看：样例复制。

二、创建翻页线索

在爬虫路线工作台新建一条记号线索

图2 新建线索

如图2，具体操作步骤如下：

跳转到爬虫路线工作台。
点击新建，创建一条线索。
选择线索类型，设置翻页线索时通常选择记号线索，本文主要介绍的就是记号线索。
勾选连贯抓取，表示在执行抓取任务时，爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。
勾选连贯抓取后，目标主题名自动填写当前规则主题名，在本规则内不应修改，表示翻页后继续使用当前规则进行抓取。

选择线索定位选项

图3 选择线索定位选项

如图3，具体操作步骤如下：
1.在爬虫路线工作台中点击定位选项。
2.线索定位选择偏好class。
网页结构中的@id属性每个页面不同的几率较大，如果线索定位偏好@id，容易导致在后续的抓取中翻页失败。所以一般我们手工修改选择较为稳定不变的@class属性，作为线索定位的首选项。

定位翻页标志，并在网页结构中找到对应节点

图4 定位翻页

如图4，具体操作步骤如下：

1.在网页上点击翻页标志“下一页”，会弹出该信息的定位提示框，通常是定位到模块节点（即包含多个下层节点，可双击展开，例如A节点）
2.展开A节点，找到“下一页”对应text节点（text节点即为文本节点）
3.点击对应text节点会在显示工作台中显示。
在网页结构窗口中找到，对应节点后，即开始进行线索映射。

线索映射——记号映射

图5 记号映射

如图5，具体操作步骤如下：

选择对应节点进行记号映射，右击对应的text节点，选择线索映射后点击记号映射，在可爬虫路线工作台记号值中看到“下一页”，记号定位编号显示“下一页”text在网页结构窗口中的对应编号。

线索映射——线索定位映射

在做完记号映射之后，要进行线索定位映射，就是选择包含记号标志的范围进行映射。

图6 定位映射

如图6，具体操作步骤如下：
1.选择线索定位区块，线索定位的区块一般是包含"下一页"翻页标志的区块节点，也就是网页上的翻页区块（在网页结构窗口中点击包含 “下一页”翻页标志的区块节点，会在浏览器窗口中显示）。
2.进行线索定位映射，右击翻页区块节点，选择线索映射→定位→线索1 。完成后定位编号会显示翻页区块节点的定位编号。
这样就完成了网站翻页规则的定义，可以使用DS打数机进行翻页数据抓取。

若有疑问可以或