下级线索重复容忍度是什么意思?有什么用处?

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-1-13 15:09

沙发
AnswerDSL 版主 发表于 2017-1-13 15:09:25 | 只看该作者
假设你做了一个层级抓取,第一级主题名A,第二级主题名B,层级抓取的意思就是运行A的时候能为B生成线索。
现在假设你要做一个舆情监测系统,每天都要重新抓取一次A,看看有没有新的消息。A相当于新闻列表,B相当于新闻详情,那么,你想做增量抓取,也就是每天不要把A的整个列表都抓一遍,只需把新出现的新闻抓一遍。那么就要用到线索重复容忍度。

把线索重复容忍度设置成80%,当运行A的时候,会统计有多少抓到的B的线索是以前已经抓过得,如果连续翻了3页都达到80%的重复,那么就会中断抓取。

这个参数可以与“激活下级线索”配合使用。因为要连续翻3页才能判断是否重复,所以,总会抓到B的重复线索,如果“激活下级线索”设置成“否”,即使重复抓到了B的线索,也不会重复激活它
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 20:55