21#
smthsiwei 初级会员 发表于 2015-10-27 17:00:16 | 只看该作者
Fuller 发表于 2015-10-26 23:50
每个主题只有一个网页,然后每个都增量抓取?

要狠精细地管理哪些线索要重新抓,必须用企业版直接控制数 ...

增量抓取有个问题啊。
我设置的是:
step1:renew 列表页面线索;
step2:抓取列表页面;
step3:抓取二级页面。

DS打数机启动以后,在列表页面不变化的前提下,step3倒是确实不执行了,但step2还总是能抓下来完整的列表。
不能让step2只返回增量列表数据吗?列表中数据多了就抓下来,不变就忽略,什么都不生成?
举报 使用道具
22#
gooseeker_info 金牌会员 发表于 2015-10-27 19:09:22 | 只看该作者
smthsiwei 发表于 2015-10-27 17:00
增量抓取有个问题啊。
我设置的是:
step1:renew 列表页面线索;

如果要每次都重复抓一遍,step2里面的updateClue=true要设置,就会为step3把抓过的线索也激活一次
举报 使用道具
23#
smthsiwei 初级会员 发表于 2015-10-30 13:47:04 | 只看该作者
gooseeker_info 发表于 2015-10-27 19:09
如果要每次都重复抓一遍,step2里面的updateClue=true要设置,就会为step3把抓过的线索也激活一次 ...

说的不是重复抓,是增量抓  
举报 使用道具
24#
gooseeker_info 金牌会员 发表于 2015-10-30 14:57:50 | 只看该作者
本帖最后由 gooseeker_info 于 2015-10-30 14:59 编辑
smthsiwei 发表于 2015-10-30 13:47
说的不是重复抓,是增量抓

要增量抓取,上一级为本级生成线索的话,上一级的updateClue=false,这样就能保证不重复。上一级就是列表级,不能做增量抓,他要去发现是否有新的下级出现,但是可以让它尽早结束,就是dupRatio=80,表示连续3页都有80%重复的话,就中断
举报 使用道具
25#
gz51837844 管理员 发表于 2016-1-29 14:35:42 | 只看该作者
目前社区版也支持定时激活线索和服务器调度功能了,相关设置在会员中心->爬虫管理里
详情请看http://www.gooseeker.com/doc/article-200-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 21:57