规则做对了,在爬数据的时候,发现有些数据抓到了,有些数据没有抓到,请问这是什么原因造成的?有什么好的解决方法?
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-3-20 14:30

沙发
For数据 高级会员 发表于 2015-12-29 10:38:11 | 只看该作者
这种情况可能是网页还在加载,但抓取速度比较快,导致爬虫还没开始采集就跳过去了,建议勾选定时器触发。
举报 使用道具
板凳
Fuller 管理员 发表于 2015-12-29 18:24:06 | 只看该作者
漏抓的情况具体是哪种?会有不同的应对方式。
我能联想到的
1)列表页,比如,京东的某个品类的商品列表,或者搜索出来的商品列表,假设一共有40个商品,只抓到35个
2)独立网页抓取,比如,有100个网页要抓取,结果只抓取到95个网页内容
3)整理箱中的抓取内容不全,比如,定义了一个整理箱,一共有6个抓取内容,结果有5个有内容。
举报 使用道具
地板
Fuller 管理员 发表于 2015-12-29 18:24:27 | 只看该作者
For数据 发表于 2015-12-29 10:38
这种情况可能是网页还在加载,但抓取速度比较快,导致爬虫还没开始采集就跳过去了,建议勾选定时器触发。 ...

定时器触发只能加剧漏抓
举报 使用道具
5#
Fuller 管理员 发表于 2015-12-29 23:39:41 | 只看该作者
Fuller 发表于 2015-12-29 18:24
漏抓的情况具体是哪种?会有不同的应对方式。
我能联想到的
1)列表页,比如,京东的某个品类的商品列表, ...

可以具体讲讲是哪种漏抓,我们可以有针对性地提出解决方案
举报 使用道具
6#
cwg1002 初级会员 发表于 2017-3-20 09:58:24 | 只看该作者
第一种情况
举报 使用道具
7#
cwg1002 初级会员 发表于 2017-3-20 09:58:39 | 只看该作者
咋办
举报 使用道具
8#
quyixuan 金牌会员 发表于 2017-3-20 11:12:57 | 只看该作者

这种有可能是网页加载不完全就开始采集了,导致采集不完整,可以试试设置一下打数机的延迟抓取


一般设置5秒足够了


举报 使用道具
9#
cwg1002 初级会员 发表于 2017-3-20 11:56:35 | 只看该作者
还是漏,自定义xpath能彻底解决问题吗?
举报 使用道具
10#
cwg1002 初级会员 发表于 2017-3-20 11:56:54 | 只看该作者
求回复!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 21:01