我在翻页爬取数据的时候总是在中间中断,并未显示爬取失败,显示的是爬取成功,没有剩余线索,这是为什么,如何解决。或者如何能够接着中断页继续爬取,而不是又从头开始重新爬取一遍。
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-5-3 17:57

沙发
Fuller 管理员 发表于 2016-5-3 17:57:03 | 只看该作者
翻页抓取要确保网络状态很好,否则很容易中断。

首先,判断中断是不是规则不合适引起的,或者是爬虫参数不合适引起的。比如,
1,DS打数机的滚屏次数
2,超时时长多长
3,定时器触发是否打开
这些参数是否合适。你可以把中断后DS打数机的界面截图发出来,帮你判断

其次,中断后是否能够恢复。重点是研究一下每个分页他们的网址是否一样,大部分情况下,页码信息是url参数,那么每个分页的url都不一样。这样的话,把中断处的url找出来,添加线索,那么下次就从中断处开始了。

你再尝试一下,如果需要进一步协助,把抓取规则名告诉我们
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-25 05:57