中断之后还能继续采集么

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-4-21 19:15

沙发
shengchengx 金牌会员 发表于 2017-4-21 17:27:22 | 只看该作者
如果是手工采集(单搜或集搜启动的爬虫),那么就要重新启动,输入新的线索网址数,就会继续爬了

如果是爬虫群采集的话,采集中断是不影响的,因为是只要有待采集的线索网址,就会自动分配给爬虫群,它们是要采完所有线索网址才会停止的。            
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-21 19:15:22 | 只看该作者
如果你是说翻页中断怎么办,那么要分成以下情况:

1,如果每个分页都有不同的网址,一般来说是url中用特定的参数表示页码,那么中断以后,可以把中断处的url构造出来,再次把网址添加进去,那么爬虫就可以从中断处再次开始爬数据。

2,如果每个分页没有独立的网址,那么要接上爬就不太容易,只能从头重爬了。有些网站很容易中断,比如,微博的评论,即使手工翻页都会遇到中断,显示说没有更多评论了,但是下一次翻页也许能看到更多评论,这种情况一般是网站的处理速度不够,可以选择在半夜爬数据


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 11:34