请转到最新版的翻页教程 我们在抓取数据时,通常不会只抓取网页当前页面的数据,往往都会继续抓取翻页后的数据。本文就为大家介绍,集搜客GooSeeker网络爬虫如何在进行数据抓取时,自动抓取翻页后的数据。 注释1:本文所演示的翻页抓取规则,可到资源库下载学习:翻页抓取_天猫搜索列表 一、完成抓取内容映射
图1 内容映射 如图1,具体操作步骤如下:
注释:关于抓取内容基本映射操作看参考:《集搜客入门——三步掌握集搜客》; 二、创建翻页线索
图2 新建线索 如图2,具体操作步骤如下:
图3 选择线索定位选项 如图3,具体操作步骤如下:
图4 定位翻页 如图4,具体操作步骤如下: 1.在网页上点击翻页标志“下一页”,会弹出该信息的定位提示框,通常是定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)
图5 记号映射 如图5,具体操作步骤如下:
在做完记号映射之后,要进行线索定位映射,就是选择包含记号标志的范围进行映射。 图6 定位映射 如图6,具体操作步骤如下: |
Miko_Yang: 微博评论采集为什么“查看更多”只点击了4.5次呢?没有爬全啊
limingzhu123: 为什么我按照教程来操作还是只显示第一页的呢
snowqqfox: 请问开始翻页后,怎么才能停下来呢?3000多页,我只想爬10页啊。
alexchang: 有些网页“下一页”选项并没有txt内容,比如就是一个小箭头,那么如何进行记号映射?
Fuller: 线索定位变成按钮了,在爬虫路线工作台上,紧挨着“查看”按钮
hotdog16: 更新版本位置变化了,已找到,不好意思
hotdog16: 设置好以上步骤后,存规则,之后爬数据,显示Failed: Crawl cannot be initiated from the state of FAILED,现实爬虫状态错误,是哪里做错了呢? ...