我用爬虫群来跑,怎么有些爬虫窗口没在跑?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-2-21 09:49

沙发
Fuller 管理员 发表于 2016-10-20 11:55:11 | 只看该作者
一个主题的线索能分配到多少个爬虫窗口上,这个是由调度参数“最大允许运行爬虫数”决定,你这个参数设置的是否对。

另外,爬虫罗盘给爬虫窗口安排任务的时候,尽量使用以前给过相同任务的窗口,如果一个窗口接收的爬虫任务很短时间就完成了,还没等到给另一个窗口分配任务,这个窗口又来申请任务,那么就会把任务再次交给前一个窗口
举报 使用道具
板凳
1866905838 初级会员 发表于 2017-2-21 08:32:07 | 只看该作者
Fuller 发表于 2016-10-20 11:55
一个主题的线索能分配到多少个爬虫窗口上,这个是由调度参数“最大允许运行爬虫数”决定,你这个参数设置的 ...

你好,请教两个问题,
①最大爬虫运行数量,我的主题“医生信息”,有3个线索未采集,启动爬虫群,设置成最大允许4个爬虫运行。但实际只启动了2个爬虫。请问是什么情况?如图1
②启动后,运行中,“状态面板”上显示,总动20条线索,剩余19条线索,请问怎么理解?如图2

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-21 09:49:12 | 只看该作者
1866905838 发表于 2017-2-21 08:32
你好,请教两个问题,
①最大爬虫运行数量,我的主题“医生信息”,有3个线索未采集,启动爬虫群,设置成 ...

这里显示的线索数跟你设置调度参数有关,一批多少个线索,如果你设置成20,那么这个窗口就期望一次执行20个,即使没有20个,他也显示20个,那是他的期望值,等执行过程中发现没有了,就停止抓取了。

如果只有3个线索,而且每个都要执行很长时间,你开4个爬虫群窗口,那么可以给三个窗口各分配一个线索。分配过程需要一点调度时间,才能得到任务。如果在这个期间,另一个窗口把剩下的线索都拿到了,那么这个窗口就得不到任务了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-1 12:27