设置5个爬虫群只能打开两个,有时候显示之前完成那个窗口
有时候网页加载不完全,请问怎么回事,谢谢
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2020-7-23 22:51

沙发
Fuller 管理员 发表于 2020-7-23 10:16:19 | 只看该作者
运行的任务是你自己定义的规则?还是快捷采集的现成规则?

如果是自己定义的规则,一个任务能分配给几个爬虫群窗口,是可以设置的


快捷采集和微博采集工具箱是不能自己设置的,最多只能分配给2个爬虫群窗口
举报 使用道具
板凳
Fuller 管理员 发表于 2020-7-23 10:16:49 | 只看该作者
网页加载不完全是什么样子的?能否截个图看看?另外,把网址发出来我们测试一下
举报 使用道具
地板
kodiaxu 高级会员 发表于 2020-7-23 16:31:24 | 只看该作者
我自己做的,我用 单搜和集搜可以爬,正常
启动爬虫群,比如刚才,启动5个窗口,四个没有启动,显示平时线索完了那个页面

一个是这样的

傲游截图20200723162836.jpg (101.68 KB, 下载次数: 671)

傲游截图20200723162836.jpg
举报 使用道具
5#
kodiaxu 高级会员 发表于 2020-7-23 16:32:15 | 只看该作者
因为我是要搜网页下方 谁引用的字段,没有显示出来,所以没有办法采集,但是单搜和集搜可以
举报 使用道具
6#
kodiaxu 高级会员 发表于 2020-7-23 16:32:48 | 只看该作者
举报 使用道具
7#
Fuller 管理员 发表于 2020-7-23 17:16:56 | 只看该作者
kodiaxu 发表于 2020-7-23 16:32
http://kns.cnki.net/kcms/detail/detail.aspx?FileName=TPYX201501015&DbName=CJFQ2015
就是这种网址 ...



红框里面的数字,决定了能有多少个窗口同时采集这个任务。比如,填5个。

但是要注意“一批网址数量”,要足够多,比如,20个网址作为一批,要采集完20个网址,可能要花好几分钟时间,这个时候就有可能下发另一批任务,就会被另一个窗口接去执行。

如果一批数量很小,比如,5个网址,还没有排到下发另一批任务的时候,这一批就采集完了,等下发另一批任务的时候,5个窗口都是空闲的,就会还用上一个窗口。

所以,一批要足够大。

下面的红框决定了哪些内容不加载,是为了加速的,我估计你选择了某些内容不加载,不然不会与单搜不一样
举报 使用道具
8#
kodiaxu 高级会员 发表于 2020-7-23 17:32:17 | 只看该作者
那么,并发网址窗口数 和 一批网址数量怎么设置比较合适呢,谢谢? 成比例?怎么样的比例
举报 使用道具
9#
Fuller 管理员 发表于 2020-7-23 22:51:04 | 只看该作者
kodiaxu 发表于 2020-7-23 17:32
那么,并发网址窗口数 和 一批网址数量怎么设置比较合适呢,谢谢? 成比例?怎么样的比例 ...

每个网站的速度不一样,没有固定的比例,主要靠实验,比如,先设置成一批50个网址,看看同时会有几个窗口分配到任务,记录一下一批执行完需要多少分钟,然后进行调整。

分配任务的时间间隔要好几分钟,比如,4分钟,第一个窗口拿到任务了,可能要过4分钟,另一个窗口才能拿到任务
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 23:15