本帖最后由 ym 于 2015-12-24 14:40 编辑

duplication.png
打开了爬虫群,在规则调度里是默认设置为判断下级线索的网址是否有很大重复率,参数为”下级线索重复容忍度“,如果规则里是抓下级网址的话,当线索网址的重复率超过设置的值时,就会中断抓取,把它设置成100%就不判断是否重复了,也不会中断了

在会员中心的爬虫管理->规则管理->调度设置,如果要增量抓下级线索的网址,激活下级线索那里不要选择“是”,要选”否“
下级线索容忍度.png


举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-12-24 16:18

Fuller 管理员 发表于 2015-12-24 16:18:21 | 显示全部楼层
目前常用的重复判断有两个:
1)根据下级线索判断是否重复,就是楼主说的情形,主要用于增量抓取,比如,做舆情监测系统,不断监测新闻列表,只把最新的新闻抓下来(下一级抓取详细内容)
2)根据内容判断重复:上面截图的“重复内容中断”,如果连续抓了3次一样的内容,就是重复的,就中断。主要用于翻页抓取。有些网页即使到了最后,点击“下一页”还能点
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:17