如何翻页抓取网页数据——以采集天猫搜索列表为例

2015-8-25 11:46| 发布者: HJLing| 查看: 57103| 评论: 24

摘要: 我们在抓取数据时,通常不会只抓取网页当前页面的数据,往往都会继续抓取翻页后的数据。本文就为大家介绍,集搜客GooSeeker网络爬虫如何在进行数据抓取时,自动抓取翻页后的数据。 在MS谋数台的爬虫路线工作台有三种 ...
请转到最新版的翻页教程


我们在抓取数据时,通常不会只抓取网页当前页面的数据,往往都会继续抓取翻页后的数据。本文就为大家介绍,集搜客GooSeeker网络爬虫如何在进行数据抓取时,自动抓取翻页后的数据。
在MS谋数台的爬虫路线工作台有三种线索方式可以实现自动抓取翻页后的数据,分别是定点线索、记号线索、相对线索。本文主要介绍比较常用的记号线索。

注释1:本文所演示的翻页抓取规则,可到资源库下载学习:翻页抓取_天猫搜索列表

一、完成抓取内容映射

  • 以天猫搜索列表为例。
  • 理箱中创建抓取内容,并完成映射。

图1 内容映射

如图1,具体操作步骤如下:

  1. 在整理箱中创建抓取内容,并完成映射,选择网页上要抓取的内容映射到整理箱后,跳转到爬虫路线工作台设置翻页线索。

注释:关于抓取内容基本映射操作看参考:《集搜客入门——三步掌握集搜客》
做完抓取内容基本操作后,为了抓取网页上所有相同产品的数据本规则还使用了样例复制管理功能,可参看:样例复制。


二、创建翻页线索

  • 在爬虫路线工作台新建一条记号线索

 图2 新建线索

如图2,具体操作步骤如下:

  1. 跳转到爬虫路线工作台。
  2. 点击新建,创建一条线索。
  3. 选择线索类型,设置翻页线索时通常选择记号线索,本文主要介绍的就是记号线索。
  4. 勾选连贯抓取,表示在执行抓取任务时,爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。
  5. 勾选连贯抓取后,目标主题名自动填写当前规则主题名,在本规则内不应修改,表示翻页后继续使用当前规则进行抓取。


  • 选择线索定位选项

图3 选择线索定位选项

如图3,具体操作步骤如下:
1.在爬虫路线工作台中点击定位选项。
2.
线索定位选择偏好class。
网页结构中的@id属性每个页面不同的几率较大,如果线索定位偏好@id,容易导致在后续的抓取中翻页失败。所以一般我们手工修改选择较为稳定不变的@class属性,作为线索定位的首选项。


  • 定位翻页标志,并在网页结构中找到对应节点

图4 定位翻页

如图4,具体操作步骤如下:

1.在网页上点击翻页标志“下一页”,会弹出该信息的定位提示框,通常是定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)
2.展开A节点,找到“下一页”对应text节点(text节点即为文本节点)
3.点击对应text节点会在显示工作台中显示。
在网页结构窗口中找到,对应节点后,即开始进行线索映射。


  • 线索映射——记号映射

图5 记号映射

如图5,具体操作步骤如下:

  1. 选择对应节点进行记号映射,右击对应的text节点,选择线索映射后点击记号映射,在可爬虫路线工作台记号值中看到“下一页”,记号定位编号显示“下一页”text在网页结构窗口中的对应编号。


  • 线索映射——线索定位映射

在做完记号映射之后,要进行线索定位映射,就是选择包含记号标志的范围进行映射。

图6  定位映射

如图6,具体操作步骤如下:
1.选择线索定位区块,线索定位的区块一般是包含"下一页"翻页标志的区块节点,也就是网页上的翻页区块(在网页结构窗口中点击包含 “下一页”翻页标志的区块节点,会在浏览器窗口中显示)。
2.进行线索定位映射,右击翻页区块节点,选择线索映射→定位→线索1 。完成后定位编号会显示翻页区块节点的定位编号。
这样就完成了网站翻页规则的定义,可以使用DS打数机进行翻页数据抓取。


若有疑问可以集搜客网络爬虫
74

鲜花
2

握手
1

雷人
1

路过
6

鸡蛋

刚表态过的朋友 (84 人)

相关阅读

发表评论

最新评论

评论 maomao 2018-4-14 19:41
现在采集天猫商品信息和评论,可以用Gooseeker数据DIY,更方便简单,输入网址,就可采集,采集的页数,可以设置。http://www.gooseeker.com/res/datadiy.html?category=%E7%94%B5%E5%95%86&web=%E5%A4%A9%E7%8C%AB
评论 umsung 2017-10-10 11:20
Miko_Yang: 微博评论采集为什么“查看更多”只点击了4.5次呢?没有爬全啊
是用的微博工具还是自己做的规则? 用连续点击动作去点击“查看更多”,只要xpath正确就能点击完,如果xpath正确就是打数机的参数设置不对,需要调慢一点。
评论 Miko_Yang 2017-10-10 11:10
微博评论采集为什么“查看更多”只点击了4.5次呢?没有爬全啊
评论 quyixuan 2017-3-6 14:42
limingzhu123: 为什么我按照教程来操作还是只显示第一页的呢
在谋数台定义规则的时候点击测试只会显示当前页的,要看翻页有没有成功需要先存规则,然后爬数据,在爬的时候看窗口里面的内容有没有翻页
评论 limingzhu123 2017-3-6 13:06
为什么我按照教程来操作还是只显示第一页的呢
评论 xandy 2017-1-20 16:06
snowqqfox: 请问开始翻页后,怎么才能停下来呢?3000多页,我只想爬10页啊。
看这里,http://www.gooseeker.com/doc/thread-917-1-1.html,通过会员中心的设置来控制翻页数量
评论 snowqqfox 2017-1-20 13:05
请问开始翻页后,怎么才能停下来呢?3000多页,我只想爬10页啊。
评论 elegantcoin 2016-8-30 17:27
太棒了,其实很简单,但最开始加了些不懂得术语就觉得难多了
评论 longlongago 2016-8-13 17:07
小试牛刀~可以的哦~
评论 风景不在对岸 2016-6-13 16:14
请问在层级采集中添加记号线索翻页,为什么一直重复爬取第一页的链接,不翻页?
评论 Fuller 2016-5-3 16:27
alexchang: 有些网页“下一页”选项并没有txt内容,比如就是一个小箭头,那么如何进行记号映射?
这种小箭头如果是一个图片,那么就用img标签中的src属性作为记号。做记号映射前先要设置一下记号类型,把“文本记号”那个勾去掉。

如果小箭头是用class表示的,那么就把这个独特的class属性值作为记号
评论 alexchang 2016-5-3 15:51
有些网页“下一页”选项并没有txt内容,比如就是一个小箭头,那么如何进行记号映射?
评论 youzhimeng 2016-4-21 11:57
Fuller: 线索定位变成按钮了,在爬虫路线工作台上,紧挨着“查看”按钮
谢谢,找到了
评论 Fuller 2016-4-20 23:39
youzhimeng: 新版本在哪找线索定位
线索定位变成按钮了,在爬虫路线工作台上,紧挨着“查看”按钮
评论 Fuller 2016-4-20 23:39
youzhimeng: 新版本在哪找线索定位
线索定位变成按钮了,在爬虫路线工作台上,紧挨着“查看”按钮
评论 youzhimeng 2016-4-20 23:10
hotdog16: 更新版本位置变化了,已找到,不好意思
新版本在哪找线索定位
评论 Fuller 2016-4-18 18:27
hotdog16: 设置好以上步骤后,存规则,之后爬数据,显示Failed: Crawl cannot be initiated from the state of FAILED,现实爬虫状态错误,是哪里做错了呢? ...
先检查DS打数机是否连通服务器了。如果存规则后紧接着抓数据,应该没有连通问题。那么可能是上次运行时,程序出错了。通常程序出错会自动恢复,如果恢复不了,请把 .metaseeker.log.txt 日志文件发给我们分析,也许有程序bug。但是,如果从来没有抓取过数据,很可能DS打数机的程序文件被360删除了一些。你可以这样测试:把DS打数机关了重新运行,如果还出现这个错误,那么可能是程序文件被删除了
评论 hotdog16 2016-4-18 17:04
设置好以上步骤后,存规则,之后爬数据,显示Failed: Crawl cannot be initiated from the state of FAILED,现实爬虫状态错误,是哪里做错了呢?
评论 hotdog16 2016-4-18 16:59
hotdog16: 为什么我的配置里没有线索定位选项?????
更新版本位置变化了,已找到,不好意思
评论 hotdog16 2016-4-18 16:45
为什么我的配置里没有线索定位选项?????

查看全部评论(24)

GMT+8, 2024-12-22 10:00