GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
2
14172
翻页到中间就失败了怎么解决
wangyong
于 2015-10-16 10:44
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
wangyong
积分
10211
精华
4
威望
4238
金钱
3
最后登录 1970-1-1
加为好友
发送消息
访问家园
本帖最后由 ym 于 2015-10-26 15:43 编辑
常见问题
>
制作规则—常见问题导航
>
翻页
> 翻页到中间就失败了怎么解决
原因可能是翻页到中间后,线索范围的的定位标志与第一页的定位标志不同。
分析第一页和失败页面,找到共有的@class值或者@id值在谋数台中做为线索范围定位标志
收藏
1
转播
支持
0
反对
0
举报
使用道具
|
回复
共 2 个关于本帖的回复 最后回复于 2016-5-24 15:13
ym
积分
5311
精华
24
威望
1760
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
ym
版主
发表于 2016-5-24 14:49:15
|
只看该作者
本帖最后由 ym 于 2017-2-17 10:56 编辑
1、分析规则是否有问题
翻页到中间就失败的话,可能是翻页线索没设置好,可能是整理箱定位到的起点路径找不到,也可能是某些抓取内容不存在网页上,具体原因可以到MS里加载规则,手工翻页分析一下网页是否与规则匹配。
具体操作:
到MS加载规则后,把工具条上的“内容定位”不要勾选,然后在浏览器中点击翻页,再勾上内容定位,点击文件菜单->刷新网页结构->分析页面,网页结构与规则不匹配的话,MS就会提示***定位不到节点,要具体分析一下网页结构的差异,再来优化规则映射。参考教程
怎样解决规则采集失败/遗漏的问题
2、规则没问题的话就是被网站限制访问了
另外,还有可能是目标网站有访问量控制,连续翻页太多或者网速较差时就容易翻页断掉,如果检查了规则没有问题的话,应该就是遇到访问限制了。
解决方法:
1、看看每页是否有独立网址,有独立网址的话,打开最新抓到的那个xml,打开fullpath网址,把断掉的下一页网址添加到规则里继续爬
2、若有独立网址,可以删掉翻页线索,把下一页的网址采集下来并设置下级线索,目标主题名依然填本级的主题名,然后用爬虫群采集,就可以自动逐页采集,遇到采集失败的情况,只需激活失败线索,爬虫群就可以继续采集下一页,详细操作参考这篇文章的第三步第3点
《实战:怎么解决翻页死循环/重复翻页的问题》
3、没有独立网址的话,看看是否有页码输入框,有的话,就可以在规则里通过连续动作设置翻页,让爬虫再次采集时就跳转到断掉的那一页,再继续翻页采集,参考教程
《用连续动作实现翻页点击》
另外,要控制好采集速度,翻页太快的话,就容易被限制,控制采集速度的方法见
http://www.gooseeker.com/doc/thread-676-1-2.html
举报
使用道具
回复
支持
反对
ym
积分
5311
精华
24
威望
1760
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
ym
版主
发表于 2016-5-24 15:13:03
|
只看该作者
本帖最后由 ym 于 2017-2-9 16:58 编辑
3、翻页线索并不适用,需要人工调整优化
很多人忘了设置线索定位,一般默认是绝对定位,此时,第一页的翻页路径和第二页通常不同,就会使得第二页翻页失败,所以,通常要修改一下线索定位为偏好class或偏好id,可以优化翻页的xpath路径。
如果是第一页没有翻过去,说明翻页设置不适用,要尝试一下其他翻页方法,看看是否能成功。更多翻页方法见集锦的第一点
http://www.gooseeker.com/doc/thread-698-1-1.html
另外,翻页采集时,DS打数机不要勾选定时器触发,这样会加快采集速度,从而很容易翻页到中间就断掉。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
资源发布公告
python交流
数学建模交流
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
利用AI阅读和分析文本:扣子COZE记录用户反
在网页片段内直观标注——以B站评论采集为
利用AI阅读和分析文本:使用COZE建设游记文
使用AI工具Kimi生成python代码为文本分析结
苹果mac电脑安装集搜客网络爬虫软件失败的
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
集搜客文本分词标注工具(V1版)
3
怎样使用快捷采集(以采集京东评论为例)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10546
访问主页>>
wangyong
帖子:1712
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2024-10-31 12:53
快速回复
快速发帖
返回顶部
返回列表
共 2 个关于本帖的回复 最后回复于 2016-5-24 15:13