本帖最后由 coentene 于 2017-2-9 17:37 编辑

一个线索 100页 经常断 有什么好方法优化么
比如 https://list.tmall.com/search_pr ... 69&type=pc#J_Filter
这个页面 我从第一页开始爬 爬完56页,就结束了,我需要手动重新添加57页的网址线索,才能继续爬完100页,我要爬的线索比较多,每次都断 真是好麻烦
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-2-9 17:42

沙发
ym 版主 发表于 2017-2-9 17:28:48 | 只看该作者
本帖最后由 ym 于 2017-2-9 17:34 编辑

若有独立网址,可以删掉翻页线索,把下一页的网址采集下来并设置下级线索,目标主题名依然填本级的主题名,然后用爬虫群采集,就可以自动逐页采集,遇到采集失败的情况,只需激活失败线索,爬虫群就可以继续采集下一页,详细操作参考这篇文章的第三步第3点《实战:怎么解决翻页死循环/重复翻页的问题》
举报 使用道具
板凳
coentene 初级会员 发表于 2017-2-9 17:37:48 | 只看该作者
这个是不是不实用啊,爬虫群也会断吧?
举报 使用道具
地板
ym 版主 发表于 2017-2-9 17:39:41 | 只看该作者
不会,这个是以网址形式传递的,不会断,每一页是独立采集的,跟翻页无关了,如果某一页采失败了,只需激活失败线索,爬虫群就可以继续爬
举报 使用道具
5#
coentene 初级会员 发表于 2017-2-9 17:42:08 | 只看该作者
谢谢,我试试
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 09:05