我在翻页爬取数据的时候总是在中间中断,并未显示爬取失败,显示的是爬取成功,没有剩余线索,这是为什么,如何解决。或者如何能够接着中断页继续爬取,而不是又从头开始重新爬取一遍。
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-5-3 17:57

Fuller 管理员 发表于 2016-5-3 17:57:03 | 显示全部楼层
翻页抓取要确保网络状态很好,否则很容易中断。

首先,判断中断是不是规则不合适引起的,或者是爬虫参数不合适引起的。比如,
1,DS打数机的滚屏次数
2,超时时长多长
3,定时器触发是否打开
这些参数是否合适。你可以把中断后DS打数机的界面截图发出来,帮你判断

其次,中断后是否能够恢复。重点是研究一下每个分页他们的网址是否一样,大部分情况下,页码信息是url参数,那么每个分页的url都不一样。这样的话,把中断处的url找出来,添加线索,那么下次就从中断处开始了。

你再尝试一下,如果需要进一步协助,把抓取规则名告诉我们
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 07:10