比如我抓取了100页,但一共是150页,能不能再抓取的时候从第101页开始抓取后面的?
麻烦了!谢谢。
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-9-24 23:03

沙发
Fuller 管理员 发表于 2015-9-24 23:03:10 | 只看该作者
如果是各自独立的150页,中断了没有关系,下次从101页开始,但是可以在中断的时候,第100页并没有抓完,这一页需要重新激活

如果是连续的翻页,到100页的时候人为中断了,就接不上了,要从头开始。如果是因为网络拥塞,可以设置
    <resumePageLoad>true</resumePageLoad>
    <resumeMaxCount>3</resumeMaxCount>
这两个参数,可以减轻拥塞的影响。详细参看:http://www.gooseeker.com/doc/article-112-1.html

如果连续翻页的网站每个分页都有独立的网址,那么在MS谋数台的爬虫路线工作台上,不要给翻页线索设置连贯抓取,那么就不怕中断,下次运行会接上。但是,很多时候翻页没有独立的网址,必须一口气翻完
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 04:08