比如我想在一台电脑上开10个规则为jingjie_taobao_search的窗口,可以实现这个吗
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2015-12-24 20:49

沙发
ym 版主 发表于 2015-12-24 20:35:04 | 只看该作者
用爬虫群调度实现的话,哪个窗口跑,你是决定不了的,你只能决定运行多少个窗口,哪个窗口空闲,哪个就会被分配任务
举报 使用道具
板凳
ym 版主 发表于 2015-12-24 20:41:37 | 只看该作者
由于为了防止封锁ip,爬虫群做了限制,一个规则在一台电脑里只能由两个爬虫同时抓数据,多开的爬虫是不会抓的,这样的话,一个规则,可以开一个单搜窗口,一个集搜窗口,加上爬虫群的两个爬虫窗口,那么,一台电脑最多可以用四个爬虫同时来抓同一个规则的数据。

如果数量还不够,crontab.xml可以继续手工添加thread。爬虫群用的crontab,thread是很简单的几个参数,手工管理的crontab就要把规则名和各种参数都写进去,以前你应该写过,没有变化,所有参数都在这里:http://www.gooseeker.com/doc/article-112-1.html
举报 使用道具
地板
HW老施 初级会员 发表于 2015-12-24 20:42:57 | 只看该作者
那这个是怎么调出那么多的

举报 使用道具
5#
ym 版主 发表于 2015-12-24 20:44:24 | 只看该作者
本帖最后由 ym 于 2015-12-24 20:57 编辑

你去DS打数机的爬虫群菜单里配置多个爬虫,勾上自启动,然后重启DS就有这么多了,只是同一个规则目前有限制,只分配给两个爬虫,只有一个规则的话开两个就行了,多开的爬虫也不会抓数据的,有多个规则的话,就可以开多个爬虫,还有,线程名字可以随便起,不是规则名字


举报 使用道具
6#
HW老施 初级会员 发表于 2015-12-24 20:46:00 | 只看该作者
那怎么知道是爬取哪一个规则
举报 使用道具
7#
ym 版主 发表于 2015-12-24 20:49:07 | 只看该作者
本帖最后由 ym 于 2015-12-24 20:57 编辑

是由调度池自动分配采集任务给各个爬虫的,抓哪个规则是不定的,每个爬虫爬了哪些规则,点击性能就可以看到如果要限定,你就得用老crontab模式


比方我们自己的爬虫,一天要爬很多很多规则,都规定死的话,那会是个很大的规划工作,所以就用爬虫群,哪个空闲就塞给他个任务

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 00:25