快捷导航
13 239

采集失败原因

18443172656 于 2021-3-11 12:10 发表 [复制链接]
我需要采集的网站有大概有4000页,每次采集到90页左右就会加载不出网页,翻页失败,日志显示:抓取超时,或规则不适用,怎么回事
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2021-3-11 20:47

wangyong 版主 发表于 2021-3-11 14:50:02 | 显示全部楼层
你可以把超时时长调高一点,看看网页加载时间调大以后能不能加载出来内容来
QQ截图20210311144903.png
同时可以把滚屏打开
举报 使用道具
Fuller 管理员 发表于 2021-3-11 14:50:37 | 显示全部楼层
什么网站?把网址发出来
举报 使用道具
18443172656 中级会员 发表于 2021-3-11 16:34:42 | 显示全部楼层
wangyong 发表于 2021-3-11 14:50
你可以把超时时长调高一点,看看网页加载时间调大以后能不能加载出来内容来

同时可以把滚屏打开

时长加大到600秒依然不行,每次都是到90页左右就会失败,三次了,会不会是网站有限制?
微信截图_20210311163218.png
举报 使用道具
18443172656 中级会员 发表于 2021-3-11 16:34:53 | 显示全部楼层
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:02:52 | 显示全部楼层
18443172656 发表于 2021-3-11 16:34
https://esm.mi.ingv.it/DYNA-stage/CadmoDriver?_action_prepare_find_div=1&_page=ACC_Events_Stations ...

可能有翻页限制。我本来想手工翻页到90页试试,但是这个网页太慢了,没法手工验证
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:07:20 | 显示全部楼层
我试了一下翻页到最后一页,这是可以的,看来没有翻页限制,就是太慢了。

很可能到后面以后,网页结构变了,所以就采集失败了。那么可以翻到最后一页,用爬虫规则分析一下页面试试
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:07:37 | 显示全部楼层
你的规则名字是什么?
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:08:50 | 显示全部楼层
我从最后一页倒着往前翻,估计10分钟都不够,很可能还是超时时常不够造成的
举报 使用道具
18443172656 中级会员 发表于 2021-3-11 17:36:05 | 显示全部楼层
Fuller 发表于 2021-3-11 17:07
我试了一下翻页到最后一页,这是可以的,看来没有翻页限制,就是太慢了。

很可能到后面以后,网页结构变了 ...

规则名是:esm采集1

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 如何使用快捷采集-以京东评论采集为例
  • 如何使用快捷采集-以知乎数据采集为例
  • 下载安装集搜客数据管家(增强版爬虫软件)
  • 自动回退返回上级页面-以懂车帝采集为例
  • 自动选择下拉菜单采集数据—以知网为例

热门用户

GMT+8, 2021-4-11 06:04