我想爬取京东的评论信息,包括评论时间,如图中最后灰色小字部分:
但有些评论是这样的:

也就是说有些时间在DIV下的第二个SPAN中,有些在第三个SPAN中,且SPAN没有class和id无法定位,
这样会有一些时间抓取不到,请问这个问题怎么解决?



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2017-9-11 19:49

沙发
shengchengx 金牌会员 发表于 2017-9-8 14:42:08 | 只看该作者
是已经修改过了么?我看好像没问题,把灰色的这段字也抓取下来了。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Healerxy 中级会员 发表于 2017-9-8 21:41:55 | 只看该作者
shengchengx 发表于 2017-9-8 14:42
是已经修改过了么?我看好像没问题,把灰色的这段字也抓取下来了。

您看您截图的最后一行,“评论时间”抓取到的是第二个SPAN里的“水漾”而不是正确的时间。这怎么解决呢?
举报 使用道具
地板
Fuller 管理员 发表于 2017-9-9 09:22:55 | 只看该作者
Healerxy 发表于 2017-9-8 21:41
您看您截图的最后一行,“评论时间”抓取到的是第二个SPAN里的“水漾”而不是正确的时间。这怎么解决呢? ...

主题名是什么?
举报 使用道具
5#
Healerxy 中级会员 发表于 2017-9-9 12:46:48 | 只看该作者
Fuller 发表于 2017-9-9 09:22
主题名是什么?

京东洗发水_评论
举报 使用道具
6#
shenzhenwan10 金牌会员 发表于 2017-9-9 14:28:16 | 只看该作者
日期确实可能在第二个SPAN, 也可能在第三个SPAN
也没有class或id值可以用来区分
可以抓他们的父节点div, 把下面的所有SPAN都抓下来, 后续对抓取结果进行清洗
举报 使用道具
7#
Healerxy 中级会员 发表于 2017-9-10 11:58:08 | 只看该作者
shenzhenwan10 发表于 2017-9-9 14:28
日期确实可能在第二个SPAN, 也可能在第三个SPAN
也没有class或id值可以用来区分
可以抓他们的父节点div, 把 ...

有没有可能使用自定义Xpath定位到最后一个SPAN呢?(不太了解xpath 不知能否做到)
举报 使用道具
8#
Healerxy 中级会员 发表于 2017-9-10 11:59:00 | 只看该作者
Fuller 发表于 2017-9-9 09:22
主题名是什么?

请问您有办法帮忙解决吗?谢谢~
举报 使用道具
9#
Fuller 管理员 发表于 2017-9-10 12:24:58 | 只看该作者
Healerxy 发表于 2017-9-10 11:59
请问您有办法帮忙解决吗?谢谢~

就像 shenzhenwan10 说的那样,用两个(或者3个)SPAN的父节点DIV做内容映射。我看了一下你的规则,抓取内容“商品名称”就是这样映射的,所以,这个抓取内容能够同时抓下来商品型号和评论时间。那么就不要再创建单独的“评论时间”这个抓取内容了。

等抓下来以后,可以把“商品名称”里面的内容进行分拆,可以根据空格进行拆分,就能把时间拆出来
举报 使用道具
10#
Healerxy 中级会员 发表于 2017-9-10 14:43:47 | 只看该作者
Fuller 发表于 2017-9-10 12:24
就像 shenzhenwan10 说的那样,用两个(或者3个)SPAN的父节点DIV做内容映射。我看了一下你的规则,抓取 ...

嗯嗯 谢谢!那我上面说的自定义Xpath定位到最后一个SPAN 这种方法可行吗?

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-25 12:41