使用爬虫群采集数据,为何有些窗口总是分配不到任务?我开了20个爬虫群窗口, 为什么有些一启动马上就能分配到呢


5.png
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-10-20 15:17

bowieD 金牌会员 发表于 2017-10-20 15:17:27 | 显示全部楼层
1,一个规则开20个窗口太多了,在会员中心-》规则管理中,调度参数有这样一项“一轮线索数量”,设置了多大,把一轮线索数量调大一些,比如,100。这个数字也不能太小,如果太小,一轮很快就抓取完了,那时,会员中心还没有调度下一轮呢。会员中心平均30秒调度一次,你这只有一个规则,被一个窗口把任务拿去以后,还没等调度下一次,前面分配到任务的窗口可能又来请求任务了,所以就会有窗口拿不到任务就显示再等待分配采集任务。可参考《服务器是如何给爬虫派发任务的? 》
2,免费版的爬虫最多只能开10个窗口,如果是免费版的话就把最大窗口数改成10.
51.jpg
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:28