本帖最后由 ym 于 2015-12-24 14:40 编辑

打开了爬虫群,在规则调度里是默认设置为判断下级线索的网址是否有很大重复率,参数为”下级线索重复容忍度“,如果规则里是抓下级网址的话,当线索网址的重复率超过设置的值时,就会中断抓取,把它设置成100%就不判断是否重复了,也不会中断了

在会员中心的爬虫管理->规则管理->调度设置,如果要增量抓下级线索的网址,激活下级线索那里不要选择“是”,要选”否“



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-12-24 16:18

沙发
Fuller 管理员 发表于 2015-12-24 16:18:21 | 只看该作者
目前常用的重复判断有两个:
1)根据下级线索判断是否重复,就是楼主说的情形,主要用于增量抓取,比如,做舆情监测系统,不断监测新闻列表,只把最新的新闻抓下来(下一级抓取详细内容)
2)根据内容判断重复:上面截图的“重复内容中断”,如果连续抓了3次一样的内容,就是重复的,就中断。主要用于翻页抓取。有些网页即使到了最后,点击“下一页”还能点
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-22 18:49