11#
Fuller 管理员 发表于 2017-9-29 10:51:00 | 只看该作者
fqzlala 发表于 2017-9-29 10:44
就是你截图中的,设置爬虫窗口数量。
一轮线索数量是默认的,没有更改过。

你把一轮线索数量调大一些,比如,100。这个数字也不能太小,如果太小,一轮很快就抓取完了,那时,会员中心还没有调度下一轮呢。会员中心平均30秒调度一次。你这只有一个规则,被一个窗口把任务拿去以后,还没等调度下一次,前面分配到任务的窗口可能又来请求任务了。

所以,你把一轮数量调大试试。楼上说的一轮数量有限制,目前还远远达不到那个限制
举报 使用道具
12#
bowieD 金牌会员 发表于 2017-9-29 10:52:16 | 只看该作者
如果你两台电脑上的爬虫名一样,那么一共就只会运行6个窗口爬取数据
举报 使用道具
13#
fqzlala 中级会员 发表于 2017-9-29 10:55:57 | 只看该作者
bowieD 发表于 2017-9-29 10:52
如果你两台电脑上的爬虫名一样,那么一共就只会运行6个窗口爬取数据

目前2台机器上,打数机中 ,文件设置的爬虫名不一样,一个是DSEngine1,另一个是DSEngine2,也重启过

举报 使用道具
14#
fqzlala 中级会员 发表于 2017-9-29 10:57:27 | 只看该作者
Fuller 发表于 2017-9-29 10:51
你把一轮线索数量调大一些,比如,100。这个数字也不能太小,如果太小,一轮很快就抓取完了,那时,会员 ...

我明白你的意思,我用的是默认的20个线索,爬取速度没那么快,一般一轮20个线索得几分钟才能结束。
举报 使用道具
15#
Fuller 管理员 发表于 2017-9-29 11:09:11 | 只看该作者
fqzlala 发表于 2017-9-29 10:57
我明白你的意思,我用的是默认的20个线索,爬取速度没那么快,一般一轮20个线索得几分钟才能结束。
...

设置到100试试
举报 使用道具
16#
fqzlala 中级会员 发表于 2017-9-29 11:17:05 | 只看该作者

好,我设置试试,我刚才是把一台停了,只用一台跑这3个规则(每个规则设置的6个爬虫),结果等了好久,爬虫才干活,而且只用2-3个干活,这台开了8个爬虫。

举报 使用道具
17#
bowieD 金牌会员 发表于 2017-9-29 11:23:20 | 只看该作者
先试试把一批线索数量调大,否则还没等调度下一个窗口,前面的爬群窗口就做完了
举报 使用道具
18#
fqzlala 中级会员 发表于 2017-9-29 11:25:09 | 只看该作者
bowieD 发表于 2017-9-29 11:23
先试试把一批线索数量调大,否则还没等调度下一个窗口,前面的爬群窗口就做完了
...

一轮20个线索的时候,得10多分钟才能跑完一轮呢。我刚才调整到100了,干活的爬虫是多了,开了8个爬虫,还有2个没干活,我是3个规则,每个都是设置的6个爬虫

举报 使用道具
19#
bowieD 金牌会员 发表于 2017-9-29 11:27:34 | 只看该作者
fqzlala 发表于 2017-9-29 11:25
一轮20个线索的时候,得10多分钟才能跑完一轮呢。我刚才调整到100了,干活的爬虫是多了,开了8个爬虫,还 ...

那这样设置就对了,把一批线索数量调大,后面的窗口就可以被调度起来使用。
举报 使用道具
20#
fqzlala 中级会员 发表于 2017-9-29 11:30:48 | 只看该作者
bowieD 发表于 2017-9-29 11:27
那这样设置就对了,把一批线索数量调大,后面的窗口就可以被调度起来使用。
...

我现在是4个干活,4个不干活。感觉最近集搜客改了服务器爬虫调用规则了,估计是优化了吧。
我2个月前,用的相同的规则,爬数据,开启的爬虫都干活,默认设置的一轮20个线索,现在这么这样了呢。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-9 08:47