我采集同一个搜索结果,页面上都是111个结果,采集出来的excel合并后也是111个,但是多次采集发现入库的给下级的线索都不到111个,一次是104个,一次是105个,一次是107个,我发现,excel出来的结果中,有相同的行,所以服务器会拒绝相同的结果入库吗?为什么我总是特定的采不到几个结果?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-1-27 16:29

沙发
xandy 论坛元老 发表于 2016-1-27 16:27:18 | 只看该作者
如果抓取第一级,发现重复的,那么生成的线索会过滤重复,因为对于爬虫来说爬重复网址没有意义,爬一次就够了;而第一级入库的时候,作为内容,不会过滤重复。
举报 使用道具
板凳
思秋忆 中级会员 发表于 2016-1-27 16:28:26 | 只看该作者
xandy 发表于 2016-1-27 16:27
如果抓取第一级,发现重复的,那么生成的线索会过滤重复,因为对于爬虫来说爬重复网址没有意义,爬一次就够 ...

但为什么有漏采的呢?按理说,如果111个结果全采并有重复的话不是应该>111条了,而且采了几次,重复的还不一样。
举报 使用道具
地板
xandy 论坛元老 发表于 2016-1-27 16:29:17 | 只看该作者
思秋忆 发表于 2016-1-27 16:28
但为什么有漏采的呢?按理说,如果111个结果全采并有重复的话不是应该>111条了,而且采了几次,重复的还 ...

测试了一下你这个网站,确实是有重复的,重复的都是单个出现在另外一个页面,也就是说翻过一页,还有上一页的结果混在里面。所以不是程序重复采了,而是本身这些网页就是有重复数据。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 00:14