规则名称:网址TECH1
1.为什么我抓取到的网址结果会有那么多重复的呢
2.如何设置抓取到固定条网址停止抓取呢
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-11-18 11:29

沙发
Fuller 管理员 发表于 2018-11-17 11:54:39 | 只看该作者
每点一次show more,就多加载一屏内容,原先的内容还在,所以就重复抓取了。这种网页没有办法避免重复
举报 使用道具
板凳
Fuller 管理员 发表于 2018-11-17 11:56:07 | 只看该作者
设置成爬虫群模式,给这个规则设置调度参数,其中有一项就是 翻页次数,也就是点击show more的次数,这个可以限制。但是只有爬虫群模式下才有。参看:https://www.gooseeker.com/doc/article-197-1.html
举报 使用道具
地板
DuoRuaiMi 高级会员 发表于 2018-11-17 20:17:36 | 只看该作者
那样例复制抓取的网址为什么结果中会重复很多呢
举报 使用道具
5#
Fuller 管理员 发表于 2018-11-18 09:42:57 | 只看该作者
DuoRuaiMi 发表于 2018-11-17 20:17
那样例复制抓取的网址为什么结果中会重复很多呢

因为这个跟翻页不同,翻页的话,上一页加载的内容全部都清除了,这个的话,show more以后,以前的内容还在,所以一定会重复采集
举报 使用道具
6#
DuoRuaiMi 高级会员 发表于 2018-11-18 11:29:10 | 只看该作者
哦哦,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 16:23