1,操作方法
选择DS打数机菜单“爬虫群”->“配置”,在弹出窗口中创建和删除爬虫(每个爬虫运行一个窗口)、给爬虫命名、设置成自启动。如下图:



2,说明

爬虫群模式可有效提高网页数据抓取的效率,配置爬虫群是首先要做的,接下来再做运行爬虫群,那么就把爬虫群准备好了,今后光专注做网页抓取规则即可。

3,相关材料
3.1,教程
1,爬虫群模式介绍
2,如何运行爬虫群
3.2,讨论帖
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-3-25 13:47

沙发
ml1691221 初级会员 发表于 2016-3-4 15:29:17 | 只看该作者
我的爬虫群一次打开10个DS打数机,但能跑起来的也就4个,好几次都是这种情况
有时候可以碰出来一个或者两个的,但是不知道为什么总是稳定在4个
举报 使用道具
板凳
ym 版主 发表于 2016-3-4 16:14:02 | 只看该作者
ml1691221 发表于 2016-3-4 15:29
我的爬虫群一次打开10个DS打数机,但能跑起来的也就4个,好几次都是这种情况
有时候可以碰出来一个或者两个 ...

为了防止爬太快 封锁ip,所以,对同个规则限制最多4个爬虫群窗口,想要运行更多DS窗口爬同个规则,可以在爬虫群的基础上,再自行编写调度程序crontab增加DS窗口,crontab教程http://www.gooseeker.com/doc/article-112-1.html
举报 使用道具
地板
Fuller 管理员 发表于 2016-3-4 21:12:12 | 只看该作者
ml1691221 发表于 2016-3-4 15:29
我的爬虫群一次打开10个DS打数机,但能跑起来的也就4个,好几次都是这种情况
有时候可以碰出来一个或者两个 ...

本来只放开两个,这个周一才放开到4个,运行多了很容易被封IP,下个星期出个新版本,在会员中心的爬虫管理那里你自己控制数量,要自己把握好,不要太多
举报 使用道具
5#
closeyoo 中级会员 发表于 2017-3-25 13:03:07 | 只看该作者
ml1691221 发表于 2016-3-4 15:29
我的爬虫群一次打开10个DS打数机,但能跑起来的也就4个,好几次都是这种情况
有时候可以碰出来一个或者两个 ...

最近数据量大了,开始用爬虫群。开始也总被这个问题困扰,打开多个爬虫窗口,只有1个在跑。
后来发现是[一轮线索数量]的问题。

[一轮线索数量]默认是20。但任务分配需要一定的时间,大概在40秒左右,如果网页加载很快,爬完20个线索的时间和任务分配时间差不多,就会出现:爬虫1先分到20个网页,爬虫2等待,爬虫1开始爬完20个网页开始等待下一轮线索,但爬虫2才刚刚分配到线索,循环反复就像只有一个爬虫在跑了。

如果是大批量的线索,我的解决方法是把[一轮线索数量]调大!比如50,100,让爬一轮线索的时间远大于分配任务的时间,这样基本每个爬虫窗口都在同时跑了。
不过确保前提:[最大允许运行爬虫数]和[爬虫群窗口数]保持一致哦~

举报 使用道具
6#
shenzhenwan10 金牌会员 发表于 2017-3-25 13:47:02 | 只看该作者
closeyoo 发表于 2017-3-25 13:03
最近数据量大了,开始用爬虫群。开始也总被这个问题困扰,打开多个爬虫窗口,只有1个在跑。
后来发现是[ ...

好经验
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 23:57