我用爬虫群来跑,怎么有些爬虫窗口没在跑?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-2-21 09:49

沙发
Fuller 管理员 发表于 2016-10-20 11:55:11 | 只看该作者
一个主题的线索能分配到多少个爬虫窗口上,这个是由调度参数“最大允许运行爬虫数”决定,你这个参数设置的是否对。

另外,爬虫罗盘给爬虫窗口安排任务的时候,尽量使用以前给过相同任务的窗口,如果一个窗口接收的爬虫任务很短时间就完成了,还没等到给另一个窗口分配任务,这个窗口又来申请任务,那么就会把任务再次交给前一个窗口
举报 使用道具
板凳
1866905838 初级会员 发表于 2017-2-21 08:32:07 | 只看该作者
Fuller 发表于 2016-10-20 11:55
一个主题的线索能分配到多少个爬虫窗口上,这个是由调度参数“最大允许运行爬虫数”决定,你这个参数设置的 ...

你好,请教两个问题,
①最大爬虫运行数量,我的主题“医生信息”,有3个线索未采集,启动爬虫群,设置成最大允许4个爬虫运行。但实际只启动了2个爬虫。请问是什么情况?如图1
②启动后,运行中,“状态面板”上显示,总动20条线索,剩余19条线索,请问怎么理解?如图2

实际启动两个.png (20.77 KB, 下载次数: 292)

图1

图1

线索数量的疑惑.png (182.09 KB, 下载次数: 314)

线索数量的疑惑.png
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-21 09:49:12 | 只看该作者
1866905838 发表于 2017-2-21 08:32
你好,请教两个问题,
①最大爬虫运行数量,我的主题“医生信息”,有3个线索未采集,启动爬虫群,设置成 ...

这里显示的线索数跟你设置调度参数有关,一批多少个线索,如果你设置成20,那么这个窗口就期望一次执行20个,即使没有20个,他也显示20个,那是他的期望值,等执行过程中发现没有了,就停止抓取了。

如果只有3个线索,而且每个都要执行很长时间,你开4个爬虫群窗口,那么可以给三个窗口各分配一个线索。分配过程需要一点调度时间,才能得到任务。如果在这个期间,另一个窗口把剩下的线索都拿到了,那么这个窗口就得不到任务了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 15:23