下级线索重复容忍度是什么意思?要怎么设置
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-11-10 18:19

沙发
Fuller 管理员 发表于 2016-11-10 18:19:12 | 只看该作者
假设你做了一个层级抓取,第一级主题名A,第二级主题名B,层级抓取的意思就是运行A的时候能为B生成线索。
现在假设你要做一个舆情监测系统,每天都要重新抓取一次A,看看有没有新的消息。A相当于新闻列表,B相当于新闻详情,那么,你想做增量抓取,也就是每天不要把A的整个列表都抓一遍,只需把新出现的新闻抓一遍。那么就要用到线索重复容忍度。

把线索重复容忍度设置成80%,当运行A的时候,会统计有多少抓到的B的线索是以前已经抓过得,如果连续翻了3页都达到80%的重复,那么就会中断抓取。

这个参数可以与“激活下级线索”配合使用。因为要连续翻3页才能判断是否重复,所以,总会抓到B的重复线索,如果“激活下级线索”设置成“否”,即使重复抓到了B的线索,也不会重复激活它
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-25 07:26