集搜客网页抓取工具怎么定时采集??
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-4-21 17:01

沙发
shengchengx 金牌会员 发表于 2017-4-21 17:01:07 | 只看该作者
一、用爬虫群设置周期采集

1、登录到集搜客的会员中心->爬虫群->点击对应规则的“调度”按钮
2、除了其他参数外,一定要做激活线索设置,定时激活线索选择“是”
3、激活时间选择“每天激活”,时间方框里要输入一个时间点数,右边的周一...周日可以根据需要勾选,全勾的话,就会在每天的12点都自动激活线索。当爬虫群窗口是启动的情况,它就会自动采集该规则的数据。
注意:激活时间如果选择“指定时间”,就是只会在设定好的未来时间里激活一次线索,而不会周期采集

二、用crontab调度程序设置周期采集

1、只有购买了旗舰版 / vip版/ 企业版爬虫,才可以用crontab
2、crontab的编写方法见http://www.gooseeker.com/doc/article-112-1.html
3、crontab参数的意义跟会员中心的调度是一致的,只是要写成对应的英文名称,不用每个参数都写上,不写的参数就会用默认值。
4、关键是必须写renewclue这一个step,指定激活线索的主题名,然后循环周期要设置parameter里面的period参数,单位是秒

f2deb48f8c5494ee0721ae9924f5e0fe99257e2b.jpg.png (42.11 KB, 下载次数: 436)

f2deb48f8c5494ee0721ae9924f5e0fe99257e2b.jpg.png

6d81800a19d8bc3ea1aca74a8b8ba61ea9d3458d.jpg.png (65.67 KB, 下载次数: 434)

6d81800a19d8bc3ea1aca74a8b8ba61ea9d3458d.jpg.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 01:42