如何定时采集网页上更新的数据

For数据

想要每个几分钟就采集某个网页上的数据，是不是需要重复做规则？

wangyong · 发表于 2021-2-24 09:41:47

使用集搜客数据管家对目标网站做完采集任务后，进入任务管理，将任务设置调度状态

在调度页面的底部可以设置定时采集数据

For数据 · 发表于 2015-12-21 21:48:16

不需要重复做规则，只需要设置定时采集就可以了，在会员中心——爬虫管理——规则管理中，就可以设置定时采集。

Fuller · 发表于 2015-12-21 22:08:29

截止到回帖时间，会员中心版本号是V4.1，GooSeeker爬虫的版本号是V5.5.2，这个版本的会员中心并不能准确设定调度时间。我们假设有这样的场景：

有10000个网址要采集，而且每天8：30开始采集。

可以采取这样的方案：
1）在会员中心的爬虫管理-〉规则管理处设置调度参数，比如，一批采集多少个网址，是否入库等。规则管理网址是：http://www.gooseeker.com/secure/ ... Num=1&home=true
2）在DS打数机的“爬虫群”菜单上设置爬虫群，并且启动一个或者多个爬虫窗口
3）手工编辑 crontab.xml文件，增加renewClue线程，保持其他线程不变。这个renewClue线程只负责激活这10000条线索。这个线程的period设置成跨度一天。crontab.xml的用法参看：http://www.gooseeker.com/doc/article-112-1.html
4）所有线程设置成自动启动。请使用DS打数机的菜单进行设置：爬虫群-〉配置
5）那么现在就有了一个混合的crontab.xml，除了renewClue线程以外，其他都是爬虫群自动调度。在早晨8：30启动DS打数机，所有的线程就能自动启动起来

这个方案的最大特点是：爬虫群自动调度和DS打数机的本地调度可以配合使用

亭子 · 发表于 2016-12-13 09:50:45

请问有没有更详细的步骤呢，看的不太懂

HJLing · 发表于 2016-12-13 10:10:59

亭子发表于 2016-12-13 09:50
请问有没有更详细的步骤呢，看的不太懂

如果你每天需要更新采一次的话直接用爬虫群的调度就好了

亭子 · 发表于 2016-12-13 10:52:01

这样每天采集，采集的是不是也包括过去的信息啊，怎么设置可以只是采集当天主页更新的信息呢

亭子 · 发表于 2016-12-13 10:54:55

HJLing 发表于 2016-12-13 10:10
如果你每天需要更新采一次的话直接用爬虫群的调度就好了

如果是采集当天更新的数据呢

HJLing · 发表于 2016-12-13 11:56:31

亭子发表于 2016-12-13 10:54
如果是采集当天更新的数据呢

你直接发网址看看吧

亭子 · 发表于 2016-12-13 14:49:48

HJLing 发表于 2016-12-13 11:56
你直接发网址看看吧

任意微博主页当天更新的数据

HJLing · 发表于 2016-12-13 15:00:55

亭子发表于 2016-12-13 14:49
任意微博主页当天更新的数据

不行因为当天更新的数据跟以前的可能存在同一个页面
针对这种情况我们都是让它每天自动激活然后采几页数据再后续处理

如何定时采集网页上更新的数据

共 14 个关于本帖的回复最后回复于 2021-2-24 09:41

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

如何定时采集网页上更新的数据

共 14 个关于本帖的回复 最后回复于 2021-2-24 09:41

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 14 个关于本帖的回复最后回复于 2021-2-24 09:41