想要每个几分钟就采集某个网页上的数据,是不是需要重复做规则?
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2021-2-24 09:41

来自 15#
wangyong 版主 发表于 2021-2-24 09:41:47 | 只看该作者
使用集搜客数据管家对目标网站做完采集任务后,进入任务管理,将任务设置调度状态

在调度页面的底部可以设置定时采集数据



举报 使用道具
沙发
For数据 高级会员 发表于 2015-12-21 21:48:16 | 只看该作者
不需要重复做规则,只需要设置定时采集就可以了,在会员中心——爬虫管理——规则管理中,就可以设置定时采集。
举报 使用道具
板凳
Fuller 管理员 发表于 2015-12-21 22:08:29 | 只看该作者
截止到回帖时间,会员中心版本号是V4.1,GooSeeker爬虫的版本号是V5.5.2,这个版本的会员中心并不能准确设定调度时间。我们假设有这样的场景:

有10000个网址要采集,而且每天8:30开始采集。

可以采取这样的方案:
1)在会员中心的爬虫管理-〉规则管理 处设置调度参数,比如,一批采集多少个网址,是否入库等。规则管理网址是:http://www.gooseeker.com/secure/ ... Num=1&home=true
2)在DS打数机的“爬虫群”菜单上设置爬虫群,并且启动一个或者多个爬虫窗口
3)手工编辑 crontab.xml文件,增加renewClue线程,保持其他线程不变。这个renewClue线程只负责激活这10000条线索。这个线程的period设置成跨度一天。crontab.xml的用法参看:http://www.gooseeker.com/doc/article-112-1.html
4)所有线程设置成自动启动。请使用DS打数机的菜单进行设置:爬虫群-〉配置
5)那么现在就有了一个混合的crontab.xml,除了renewClue线程以外,其他都是爬虫群自动调度。在早晨8:30启动DS打数机,所有的线程就能自动启动起来

这个方案的最大特点是:爬虫群自动调度和DS打数机的本地调度可以配合使用
举报 使用道具
地板
亭子 初级会员 发表于 2016-12-13 09:50:45 | 只看该作者
请问有没有更详细的步骤呢,看的不太懂
举报 使用道具
5#
HJLing 版主 发表于 2016-12-13 10:10:59 | 只看该作者
亭子 发表于 2016-12-13 09:50
请问有没有更详细的步骤呢,看的不太懂

如果你每天需要更新采一次的话 直接用爬虫群的调度就好了


举报 使用道具
6#
亭子 初级会员 发表于 2016-12-13 10:52:01 | 只看该作者
这样每天采集,采集的是不是也包括过去的信息啊,怎么设置可以只是采集当天主页更新的信息呢
举报 使用道具
7#
亭子 初级会员 发表于 2016-12-13 10:54:55 | 只看该作者
HJLing 发表于 2016-12-13 10:10
如果你每天需要更新采一次的话 直接用爬虫群的调度就好了

如果是采集当天更新的数据呢
举报 使用道具
8#
HJLing 版主 发表于 2016-12-13 11:56:31 | 只看该作者
亭子 发表于 2016-12-13 10:54
如果是采集当天更新的数据呢

你直接发网址看看吧

举报 使用道具
9#
亭子 初级会员 发表于 2016-12-13 14:49:48 | 只看该作者
HJLing 发表于 2016-12-13 11:56
你直接发网址看看吧

任意微博主页当天更新的数据
举报 使用道具
10#
HJLing 版主 发表于 2016-12-13 15:00:55 | 只看该作者
亭子 发表于 2016-12-13 14:49
任意微博主页当天更新的数据

不行 因为当天更新的数据跟以前的可能存在同一个页面
针对这种情况 我们都是让它每天自动激活 然后采几页数据 再后续处理

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 16:22