如上图所示,我调度了五个规则。现在遇到一些问题,还望大神解答一下!
1、这五个规则是有先后的:京东众筹锁——京东众筹智能锁——京东众筹详情信息——京东众筹项目话题——京东众筹项目进展。在调度设置中,也没有设置先后顺序呀?直接把五个规则扔到调度池中,爬虫群就开始抓数据,这没影响嘛?(尤其是从列表页到详情页,是勾选了下级线索,列表页都采集完才统计了下一级的线索数)
2、自启动问题。规则已经建立好,想免去人工的操作,让它每天定时采集数据。这五个规则里边,有的是连续动作、有的模拟点击。在本地DS打书机中是不需要对这些规则启动的,直接就会采集数据。在爬虫群中,我需要对这5个规则都设置激活吗?
3、配置爬虫群中最大线索20个,假如开了2个爬虫。实际线索有47个。那就最多爬40条线索?
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 3 个关于本帖的回复 最后回复于 2016-8-11 11:35