快捷导航
我想爬取京东的评论信息,包括评论时间,如图中最后灰色小字部分: 搜狗截图17年09月08日1415_1.png
但有些评论是这样的:
搜狗截图17年09月08日1415_2.png
也就是说有些时间在DIV下的第二个SPAN中,有些在第三个SPAN中,且SPAN没有class和id无法定位,
这样会有一些时间抓取不到,请问这个问题怎么解决?



举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2017-9-11 19:49

shengchengx 高级会员 发表于 2017-9-8 14:42:08 | 显示全部楼层
是已经修改过了么?我看好像没问题,把灰色的这段字也抓取下来了。
QQ截图20170908144220.jpg

举报 使用道具
Healerxy 初级会员 发表于 2017-9-8 21:41:55 | 显示全部楼层
shengchengx 发表于 2017-9-8 14:42
是已经修改过了么?我看好像没问题,把灰色的这段字也抓取下来了。

您看您截图的最后一行,“评论时间”抓取到的是第二个SPAN里的“水漾”而不是正确的时间。这怎么解决呢?
举报 使用道具
Fuller 管理员 发表于 2017-9-9 09:22:55 | 显示全部楼层
Healerxy 发表于 2017-9-8 21:41
您看您截图的最后一行,“评论时间”抓取到的是第二个SPAN里的“水漾”而不是正确的时间。这怎么解决呢? ...

主题名是什么?
举报 使用道具
Healerxy 初级会员 发表于 2017-9-9 12:46:48 | 显示全部楼层
Fuller 发表于 2017-9-9 09:22
主题名是什么?

京东洗发水_评论
举报 使用道具
shenzhenwan10 金牌会员 发表于 2017-9-9 14:28:16 | 显示全部楼层
日期确实可能在第二个SPAN, 也可能在第三个SPAN
也没有class或id值可以用来区分
可以抓他们的父节点div, 把下面的所有SPAN都抓下来, 后续对抓取结果进行清洗
举报 使用道具
Healerxy 初级会员 发表于 2017-9-10 11:58:08 | 显示全部楼层
shenzhenwan10 发表于 2017-9-9 14:28
日期确实可能在第二个SPAN, 也可能在第三个SPAN
也没有class或id值可以用来区分
可以抓他们的父节点div, 把 ...

有没有可能使用自定义Xpath定位到最后一个SPAN呢?(不太了解xpath 不知能否做到)
举报 使用道具
Healerxy 初级会员 发表于 2017-9-10 11:59:00 | 显示全部楼层
Fuller 发表于 2017-9-9 09:22
主题名是什么?

请问您有办法帮忙解决吗?谢谢~
举报 使用道具
Fuller 管理员 发表于 2017-9-10 12:24:58 | 显示全部楼层
Healerxy 发表于 2017-9-10 11:59
请问您有办法帮忙解决吗?谢谢~

就像 shenzhenwan10 说的那样,用两个(或者3个)SPAN的父节点DIV做内容映射。我看了一下你的规则,抓取内容“商品名称”就是这样映射的,所以,这个抓取内容能够同时抓下来商品型号和评论时间。那么就不要再创建单独的“评论时间”这个抓取内容了。

等抓下来以后,可以把“商品名称”里面的内容进行分拆,可以根据空格进行拆分,就能把时间拆出来
举报 使用道具
Healerxy 初级会员 发表于 2017-9-10 14:43:47 | 显示全部楼层
Fuller 发表于 2017-9-10 12:24
就像 shenzhenwan10 说的那样,用两个(或者3个)SPAN的父节点DIV做内容映射。我看了一下你的规则,抓取 ...

嗯嗯 谢谢!那我上面说的自定义Xpath定位到最后一个SPAN 这种方法可行吗?

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 从淘宝的买家评论中,能挖掘出什么有用的信
  • 连续动作:如何把抓到的信息与动作步骤对应
  • 淘宝开店运营十大攻略
  • 深圳市咨询投诉分析
  • 去资源库下载规则,轻松抓数据

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-9-21 00:24