快捷导航
比如我想在一台电脑上开10个规则为jingjie_taobao_search的窗口,可以实现这个吗
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2015-12-24 20:49

ym 版主 发表于 2015-12-24 20:35:04 | 显示全部楼层
用爬虫群调度实现的话,哪个窗口跑,你是决定不了的,你只能决定运行多少个窗口,哪个窗口空闲,哪个就会被分配任务
举报 使用道具
ym 版主 发表于 2015-12-24 20:41:37 | 显示全部楼层
由于为了防止封锁ip,爬虫群做了限制,一个规则在一台电脑里只能由两个爬虫同时抓数据,多开的爬虫是不会抓的,这样的话,一个规则,可以开一个单搜窗口,一个集搜窗口,加上爬虫群的两个爬虫窗口,那么,一台电脑最多可以用四个爬虫同时来抓同一个规则的数据。

如果数量还不够,crontab.xml可以继续手工添加thread。爬虫群用的crontab,thread是很简单的几个参数,手工管理的crontab就要把规则名和各种参数都写进去,以前你应该写过,没有变化,所有参数都在这里:http://www.gooseeker.com/doc/article-112-1.html
举报 使用道具
HW老施 初级会员 发表于 2015-12-24 20:42:57 | 显示全部楼层
那这个是怎么调出那么多的
爬虫.png
举报 使用道具
ym 版主 发表于 2015-12-24 20:44:24 | 显示全部楼层
本帖最后由 ym 于 2015-12-24 20:57 编辑

你去DS打数机的爬虫群菜单里配置多个爬虫,勾上自启动,然后重启DS就有这么多了,只是同一个规则目前有限制,只分配给两个爬虫,只有一个规则的话开两个就行了,多开的爬虫也不会抓数据的,有多个规则的话,就可以开多个爬虫,还有,线程名字可以随便起,不是规则名字
自启动.png

举报 使用道具
HW老施 初级会员 发表于 2015-12-24 20:46:00 | 显示全部楼层
那怎么知道是爬取哪一个规则
举报 使用道具
ym 版主 发表于 2015-12-24 20:49:07 | 显示全部楼层
本帖最后由 ym 于 2015-12-24 20:57 编辑

是由调度池自动分配采集任务给各个爬虫的,抓哪个规则是不定的,每个爬虫爬了哪些规则,点击性能就可以看到如果要限定,你就得用老crontab模式
性能.png

比方我们自己的爬虫,一天要爬很多很多规则,都规定死的话,那会是个很大的规划工作,所以就用爬虫群,哪个空闲就塞给他个任务

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用短视频开展对外传播的策略分析
  • 中国社交用户头像选择的文化解释
  • 使用Python提取视频文件的关键帧用于视频内
  • 国内近20年媒介融合研究热点及展望——基于
  • 融合情感词典和语义规则的微博评论细粒度情

热门用户

GMT+8, 2021-10-18 11:46