在抓取天猫某商品详情页的评论时,不论我如何设置,都只能达到以下两种结果。   1:只抓取没有追加评论的评论

   2:只抓取包含追加评论的评论
如何设置才能保证包不包含追加评论的评论都爬取下来,没有追评的话那一栏就空着?

还有就是我希望一个评论只要包含图片就判定为有,一张图片都没有就判断为无。
应该如何设置?只要能区分开来就行。
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2022-4-16 22:11

Fuller 管理员 发表于 2022-3-28 14:55:16 | 显示全部楼层
要自定义xpath才能实现。
把你的规则名发出来,我帮你看看
举报 使用道具
uanaien 初级会员 发表于 2022-3-28 14:57:36 | 显示全部楼层
Fuller 发表于 2022-3-28 14:55
要自定义xpath才能实现。
把你的规则名发出来,我帮你看看

规则名:test132    我所说的两项需求都需要自定义xpath吗?

举报 使用道具
Fuller 管理员 发表于 2022-3-28 16:02:38 | 显示全部楼层
uanaien 发表于 2022-3-28 14:57
规则名:test132    我所说的两项需求都需要自定义xpath吗?

第一步:检查dom有什么不同看下图,有追评和没有追评的class不一样


追平不同.png


第二步:生成规则
如下图,点击测试按钮,进入采集规则窗口,找到出错的抓取内容,把xpath拷出来这段:.//*[@class='tm-rate-premiere']。这是定位一个结点的xpath
适应追平.png

第三步:修改xpath,加入自定义规则
双击抓取内容,设置自定义xpath,输入编辑以后的xpath:.//*[@class='tm-rate-premiere' or @class='tm-rate-content']
zidingyi.png

最后,要重新做样例映射,因为前面规则不合适,第二个样例会定位到第二个有追评的。要改回来,排在第二个的评论无论有没有追评都作为第二个样例
举报 使用道具
uanaien 初级会员 发表于 2022-3-28 17:23:22 | 显示全部楼层
Fuller 发表于 2022-3-28 16:02
第一步:检查dom有什么不同看下图,有追评和没有追评的class不一样

感谢,已完美解决了问题。我还想问问如何在不下载图片的情况下获取评论是否含有图片的信息呢?就是需要区分出含与不含图片的评论。或者初评中有几张图片、追评中有几张图片等等。
举报 使用道具
Fuller 管理员 发表于 2022-3-28 17:43:16 | 显示全部楼层
uanaien 发表于 2022-3-28 17:23
感谢,已完美解决了问题。我还想问问如何在不下载图片的情况下获取评论是否含有图片的信息呢?就是需要区 ...

要创建抓取内容,用于存图片网址。因为有多个图片,应该用一个嵌套的整理箱,用样例复制抓取图片网址。在采集结果中数数有多少网址
举报 使用道具
lw2219 初级会员 发表于 2022-4-16 22:11:55 | 显示全部楼层
Fuller 发表于 2022-3-28 17:43
要创建抓取内容,用于存图片网址。因为有多个图片,应该用一个嵌套的整理箱,用样例复制抓取图片网址。在 ...

兄弟,你这个解决了吗?我也想试试这个
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 08:55