如上图所示,我调度了五个规则。现在遇到一些问题,还望大神解答一下!
1、这五个规则是有先后的:京东众筹锁——京东众筹智能锁——京东众筹详情信息——京东众筹项目话题——京东众筹项目进展。在调度设置中,也没有设置先后顺序呀?直接把五个规则扔到调度池中,爬虫群就开始抓数据,这没影响嘛?(尤其是从列表页到详情页,是勾选了下级线索,列表页都采集完才统计了下一级的线索数)
2、自启动问题。规则已经建立好,想免去人工的操作,让它每天定时采集数据。这五个规则里边,有的是连续动作、有的模拟点击。在本地DS打书机中是不需要对这些规则启动的,直接就会采集数据。在爬虫群中,我需要对这5个规则都设置激活吗?

3、配置爬虫群中最大线索20个,假如开了2个爬虫。实际线索有47个。那就最多爬40条线索?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-8-11 11:35

沙发
ym 版主 发表于 2016-8-10 14:48:07 | 只看该作者
本帖最后由 ym 于 2016-8-25 15:05 编辑

你的这些问题去看调度参数的介绍就能弄懂了http://www.gooseeker.com/doc/article-112-1.html
1、用爬虫群采集的话,层级的规则是可以同时进行的,所以可以对层级规则都做调度设置。
2、涉及连续动作/模拟点击的规则,只需要对动作的第一级规则做调度设置,因为是从第一级规则拿到线索网址,逐层执行动作来采集数据,也就是说爬虫采集第一级规则时,会自动执行后面的连续动作。如果要自动入库到数据管理中,那么每一级规则都要做调度设置,勾上自动入库,这样每一级采集到的数据才会自动入到数据管理中。
3、定期激活线索只需对采集入口的第一级规则设置就行,其他级别的规则如果是从上一级来获取线索的话,就不用设置激活线索。连续动作的规则也是一样,只需对动作的第一级规则设置激活就行。
4、一轮最大线索数是指一批次能够采集多少,爬虫是逐次采集的,直到把等待采集的线索网址都采完才会停止。
举报 使用道具
板凳
759924607 高级会员 发表于 2016-8-11 11:33:22 | 只看该作者
ym 发表于 2016-8-10 14:48
你的这些问题去看调度参数的介绍就能弄懂了http://www.gooseeker.com/doc/article-112-1.html
1、用爬虫群 ...

明白了 那我只需要对第一级规则做个调度,自动激活就可以啦。
我想让它每天早上10点采集数据,数据是不是必须勾选上入库?周末不上班,是不会开电脑的。如果想要将数据保存到本地电脑,有办法嘛?
举报 使用道具
地板
Fuller 管理员 发表于 2016-8-11 11:35:24 | 只看该作者
759924607 发表于 2016-8-11 11:33
明白了 那我只需要对第一级规则做个调度,自动激活就可以啦。
我想让它每天早上10点采集数据,数据是不是 ...

激活线索数,免费用户有限制,需要根据线索数量购买合适的装备。
不开电脑采集不了,可以把采集任务外包给我们
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 14:39