这几天在抓京东数据的时候,抓了大约300条以后老是抓取重复数据,抓取的速度并不快,一分钟大约才30条左右,大家有知道怎么回事的么?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-4-30 18:55

沙发
Fuller 管理员 发表于 2016-4-29 17:16:15 | 只看该作者
是翻页抓取还是抓独立的网页?

如果是翻页,手工翻页看看是否有重复。

我们以前遇到过,是京东网站的问题,过段时间就出现这个问题
举报 使用道具
板凳
houwenlong1993 初级会员 发表于 2016-4-29 22:22:45 | 只看该作者
Fuller 发表于 2016-4-29 17:16
是翻页抓取还是抓独立的网页?

如果是翻页,手工翻页看看是否有重复。

是抓取翻页的,要是抓取的商品的评论小于1万条的就不出现这种情况,但是大于一万条就会出现大量重复
举报 使用道具
地板
Fuller 管理员 发表于 2016-4-29 22:34:04 | 只看该作者
houwenlong1993 发表于 2016-4-29 22:22
是抓取翻页的,要是抓取的商品的评论小于1万条的就不出现这种情况,但是大于一万条就会出现大量重复 ...

可能京东网站只能让大家看1万条
举报 使用道具
5#
houwenlong1993 初级会员 发表于 2016-4-30 17:56:26 | 只看该作者
Fuller 发表于 2016-4-29 22:34
可能京东网站只能让大家看1万条

不是的,只要爬评论多的产品就会出现大量重复,评论少的还可以,我想问一下,以前怎么处理的
举报 使用道具
6#
Fuller 管理员 发表于 2016-4-30 18:55:32 | 只看该作者
houwenlong1993 发表于 2016-4-30 17:56
不是的,只要爬评论多的产品就会出现大量重复,评论少的还可以,我想问一下,以前怎么处理的 ...

这种情况是京东网站的原因,其实没有太好的办法,只能在抓取下来以后做过滤
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 06:58