2 15023

如何设置周期定时采集?

ym 于 2017-1-6 17:50 发表 [复制链接]
本帖最后由 ym 于 2017-5-3 11:15 编辑

想要设置周期定时采集,即间隔一定时间就会自动重复采集一遍,关键是要设置周期激活线索,然后运行爬虫群就可以达到周期采集的效果。有以下方法:
1、用爬虫群调度采集,在规则的调度里设置激活线索,循环周期可设为一天或以上。
2、购买旗舰版或VIP版爬虫或企业版爬虫,编写crontab调度程序,循环周期比爬虫群要自由,可以达到秒级。
详细操作请往下看
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-1-6 18:16

ym 版主 发表于 2017-1-6 18:01:32 | 显示全部楼层
本帖最后由 ym 于 2019-5-28 10:17 编辑

下面是旧版的调度功能界面,新版本的调度功能请看《调度设置操作介绍》

一、用爬虫群设置周期采集
QQ截图20170106175612.png
1、登录到集搜客的会员中心->爬虫群->点击对应规则的“调度”按钮
2、除了其他参数外,一定要做激活线索设置,定时激活线索选择“是”
3、激活时间选择“每天激活”,时间方框里要输入一个时间点数,右边的周一...周日可以根据需要勾选,全勾的话,就会在每天的12点都自动激活线索。当爬虫群窗口是启动的情况,它就会自动采集该规则的数据。
注意:激活时间如果选择“指定时间”,就是只会在设定好的未来时间里激活一次线索,而不会周期采集
举报 使用道具
ym 版主 发表于 2017-1-6 18:16:18 | 显示全部楼层
本帖最后由 ym 于 2017-5-3 11:15 编辑

二、用crontab调度程序设置周期采集
QQ截图20170106181427.png
1、只有购买了旗舰版或vip版或企业版爬虫,才可以用crontab
2、crontab的编写方法见《如何通过crontab程序实现周期性增量采集数据》
3、crontab参数的意义跟会员中心的调度是一致的,只是要写成对应的英文名称,不用每个参数都写上,不写的参数就会用默认值。
4、关键是必须写renewclue这一个step,指定激活线索的主题名,然后循环周期要设置parameter里面的period参数,单位是秒

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 20:14