设置5个爬虫群只能打开两个,有时候显示之前完成那个窗口
有时候网页加载不完全,请问怎么回事,谢谢
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2020-7-23 22:51

沙发
Fuller 管理员 发表于 2020-7-23 10:16:19 | 只看该作者
运行的任务是你自己定义的规则?还是快捷采集的现成规则?

如果是自己定义的规则,一个任务能分配给几个爬虫群窗口,是可以设置的


快捷采集和微博采集工具箱是不能自己设置的,最多只能分配给2个爬虫群窗口

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Fuller 管理员 发表于 2020-7-23 10:16:49 | 只看该作者
网页加载不完全是什么样子的?能否截个图看看?另外,把网址发出来我们测试一下
举报 使用道具
地板
kodiaxu 高级会员 发表于 2020-7-23 16:31:24 | 只看该作者
我自己做的,我用 单搜和集搜可以爬,正常
启动爬虫群,比如刚才,启动5个窗口,四个没有启动,显示平时线索完了那个页面

一个是这样的

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
kodiaxu 高级会员 发表于 2020-7-23 16:32:15 | 只看该作者
因为我是要搜网页下方 谁引用的字段,没有显示出来,所以没有办法采集,但是单搜和集搜可以
举报 使用道具
6#
kodiaxu 高级会员 发表于 2020-7-23 16:32:48 | 只看该作者
举报 使用道具
7#
Fuller 管理员 发表于 2020-7-23 17:16:56 | 只看该作者
kodiaxu 发表于 2020-7-23 16:32
http://kns.cnki.net/kcms/detail/detail.aspx?FileName=TPYX201501015&DbName=CJFQ2015
就是这种网址 ...



红框里面的数字,决定了能有多少个窗口同时采集这个任务。比如,填5个。

但是要注意“一批网址数量”,要足够多,比如,20个网址作为一批,要采集完20个网址,可能要花好几分钟时间,这个时候就有可能下发另一批任务,就会被另一个窗口接去执行。

如果一批数量很小,比如,5个网址,还没有排到下发另一批任务的时候,这一批就采集完了,等下发另一批任务的时候,5个窗口都是空闲的,就会还用上一个窗口。

所以,一批要足够大。

下面的红框决定了哪些内容不加载,是为了加速的,我估计你选择了某些内容不加载,不然不会与单搜不一样

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
kodiaxu 高级会员 发表于 2020-7-23 17:32:17 | 只看该作者
那么,并发网址窗口数 和 一批网址数量怎么设置比较合适呢,谢谢? 成比例?怎么样的比例
举报 使用道具
9#
Fuller 管理员 发表于 2020-7-23 22:51:04 | 只看该作者
kodiaxu 发表于 2020-7-23 17:32
那么,并发网址窗口数 和 一批网址数量怎么设置比较合适呢,谢谢? 成比例?怎么样的比例 ...

每个网站的速度不一样,没有固定的比例,主要靠实验,比如,先设置成一批50个网址,看看同时会有几个窗口分配到任务,记录一下一批执行完需要多少分钟,然后进行调整。

分配任务的时间间隔要好几分钟,比如,4分钟,第一个窗口拿到任务了,可能要过4分钟,另一个窗口才能拿到任务
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-21 23:27