下级线索和采集结果条数不一样

思秋忆

我采集同一个搜索结果，页面上都是111个结果，采集出来的excel合并后也是111个，但是多次采集发现入库的给下级的线索都不到111个，一次是104个，一次是105个，一次是107个，我发现，excel出来的结果中，有相同的行，所以服务器会拒绝相同的结果入库吗？为什么我总是特定的采不到几个结果？

xandy · 发表于 2016-1-27 16:27:18

如果抓取第一级，发现重复的，那么生成的线索会过滤重复，因为对于爬虫来说爬重复网址没有意义，爬一次就够了；而第一级入库的时候，作为内容，不会过滤重复。

思秋忆 · 发表于 2016-1-27 16:28:26

xandy 发表于 2016-1-27 16:27
如果抓取第一级，发现重复的，那么生成的线索会过滤重复，因为对于爬虫来说爬重复网址没有意义，爬一次就够 ...

但为什么有漏采的呢？按理说，如果111个结果全采并有重复的话不是应该>111条了，而且采了几次，重复的还不一样。

xandy · 发表于 2016-1-27 16:29:17

思秋忆发表于 2016-1-27 16:28
但为什么有漏采的呢？按理说，如果111个结果全采并有重复的话不是应该>111条了，而且采了几次，重复的还 ...

测试了一下你这个网站，确实是有重复的，重复的都是单个出现在另外一个页面，也就是说翻过一页，还有上一页的结果混在里面。所以不是程序重复采了，而是本身这些网页就是有重复数据。

共 3 个关于本帖的回复最后回复于 2016-1-27 16:29

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页