37 39697

爬取数据不完整

Healerxy 于 2017-9-13 11:27 发表 [复制链接]
今天用爬虫群爬取京东的商品评论,但是发现爬下来的评论不完整,有10万+评论的商品,只爬下来几百条评论就抓取完成了。规则名为 京东零食_详情,下级线索名为 京东零食_评论。
麻烦大神帮忙找找问题,谢谢!
举报 使用道具
| 回复

共 37 个关于本帖的回复 最后回复于 2017-9-18 15:53

bowieD 金牌会员 发表于 2017-9-13 12:07:56 | 显示全部楼层
本帖最后由 bowieD 于 2017-9-13 12:15 编辑

你是自己写的规则吗?京东的商品评论可以用数据DIY,http://www.gooseeker.com/res/dat ... A%E9%87%87%E9%9B%86
举报 使用道具
Healerxy 中级会员 发表于 2017-9-13 12:31:00 | 显示全部楼层
bowieD 发表于 2017-9-13 12:07
你是自己写的规则吗?京东的商品评论可以用数据DIY,http://www.gooseeker.com/res/dat ... A%E9%87%87%E9% ...

我还是想用自己编写的规则,您能不能帮我看看是哪里出了问题?
举报 使用道具
bowieD 金牌会员 发表于 2017-9-13 12:51:59 | 显示全部楼层
本帖最后由 bowieD 于 2017-9-13 12:57 编辑

你的第一级规则 京东零食_详情中的记号线索有问题,不能用模拟点击去点击“只看当前商品评价”,如果你想抓取“只看当前商品评价”下的评论,可以用连续动作去点击。
1,第一级规则定义模拟点击去点击商品评论 .参考《模拟点击》
2,第二级规则定义连续点击动作去点击勾选“只看当前商品评价”
3,第三级规则抓取“只看当前商品评价”下的评论
参考《连续动作》


举报 使用道具
Healerxy 中级会员 发表于 2017-9-13 23:45:17 | 显示全部楼层
bowieD 发表于 2017-9-13 12:51
你的第一级规则 京东零食_详情中的记号线索有问题,不能用模拟点击去点击“只看当前商品评价”,如果你想抓 ...

请问模拟点击和连续点击的区别是什么呢?
滚屏后会自动显示出评论,只需要点击“只看当前商品评价”,只点击一下时不是模拟点击更方便吗?
举报 使用道具
bowieD 金牌会员 发表于 2017-9-14 09:40:43 | 显示全部楼层
本帖最后由 bowieD 于 2017-9-15 11:27 编辑

1,模拟点击和连续动作区别在于:
模拟点击适用于在页面上做了一次点击后但是网址不变的情况 在爬虫路线定义线索 需要勾上连贯抓取 同样需要做两个规则 不过只需要运行第一个规则就可以 程序会自动运行第二个规则

连续动作适用于需要在页面做多个动作但是网址不变 在连续动作工作台定义 需要做两个规则 只需要运行第一个规则就可以 程序会自动运行第二个规则

2,一般是优先考虑做模拟点击,如果不能做模拟点击才考虑做连续动作。因为网址不变,如果选择用模拟点击去点击“只看当前商品评价”的话,也同时会把“商品介绍”中的“只看当前商品评价”勾上

3,如果要采集评论,可以直接在“商品介绍”模块中采。
举报 使用道具
Healerxy 中级会员 发表于 2017-9-14 23:14:05 | 显示全部楼层
bowieD 发表于 2017-9-14 09:40
1,模拟点击和连续动作区别在于:
模拟点击适用于在页面上做了一次点击后但是网址不变的情况 在爬虫路线定 ...

谢谢您的回答。
可是我的目的就是勾选“只看当前商品评价”,关于您说的会导致只爬取详细评价这一点我不太懂,能否再解释一下呢?辛苦了~
举报 使用道具
bowieD 金牌会员 发表于 2017-9-15 09:15:08 | 显示全部楼层
因为“商品介绍”和”商品评价“在一个iframe框架里面,用模拟点击会导致定位“只看当前商品评价”的节点时会回到“商品介绍“界面,所以不能用模拟点击。
举报 使用道具
Healerxy 中级会员 发表于 2017-9-15 11:20:14 | 显示全部楼层
bowieD 发表于 2017-9-15 09:15
因为“商品介绍”和”商品评价“在一个iframe框架里面,用模拟点击会导致定位“只看当前商品评价”的节点时 ...

那我只要将模拟点击改为连续动作就可以解决这个问题了是吗?
举报 使用道具
bowieD 金牌会员 发表于 2017-9-15 11:28:50 | 显示全部楼层
因为你之前的规则有问题,改过来之后应该就可以解决问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 21:29