1 13875

能实现断点续传吗?

larklee2015 于 2015-9-24 22:31 发表 [复制链接]
比如我抓取了100页,但一共是150页,能不能再抓取的时候从第101页开始抓取后面的?
麻烦了!谢谢。
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-9-24 23:03

Fuller 管理员 发表于 2015-9-24 23:03:10 | 显示全部楼层
如果是各自独立的150页,中断了没有关系,下次从101页开始,但是可以在中断的时候,第100页并没有抓完,这一页需要重新激活

如果是连续的翻页,到100页的时候人为中断了,就接不上了,要从头开始。如果是因为网络拥塞,可以设置
    <resumePageLoad>true</resumePageLoad>
    <resumeMaxCount>3</resumeMaxCount>
这两个参数,可以减轻拥塞的影响。详细参看:http://www.gooseeker.com/doc/article-112-1.html

如果连续翻页的网站每个分页都有独立的网址,那么在MS谋数台的爬虫路线工作台上,不要给翻页线索设置连贯抓取,那么就不怕中断,下次运行会接上。但是,很多时候翻页没有独立的网址,必须一口气翻完
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:11