在抓取天猫某商品详情页的评论时,不论我如何设置,都只能达到以下两种结果。   1:只抓取没有追加评论的评论

   2:只抓取包含追加评论的评论
如何设置才能保证包不包含追加评论的评论都爬取下来,没有追评的话那一栏就空着?

还有就是我希望一个评论只要包含图片就判定为有,一张图片都没有就判断为无。
应该如何设置?只要能区分开来就行。
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2022-4-16 22:11

沙发
Fuller 管理员 发表于 2022-3-28 14:55:16 | 只看该作者
要自定义xpath才能实现。
把你的规则名发出来,我帮你看看
举报 使用道具
板凳
uanaien 初级会员 发表于 2022-3-28 14:57:36 | 只看该作者
Fuller 发表于 2022-3-28 14:55
要自定义xpath才能实现。
把你的规则名发出来,我帮你看看

规则名:test132    我所说的两项需求都需要自定义xpath吗?

举报 使用道具
地板
Fuller 管理员 发表于 2022-3-28 16:02:38 | 只看该作者
uanaien 发表于 2022-3-28 14:57
规则名:test132    我所说的两项需求都需要自定义xpath吗?

第一步:检查dom有什么不同看下图,有追评和没有追评的class不一样





第二步:生成规则
如下图,点击测试按钮,进入采集规则窗口,找到出错的抓取内容,把xpath拷出来这段:.//*[@class='tm-rate-premiere']。这是定位一个结点的xpath


第三步:修改xpath,加入自定义规则
双击抓取内容,设置自定义xpath,输入编辑以后的xpath:.//*[@class='tm-rate-premiere' or @class='tm-rate-content']


最后,要重新做样例映射,因为前面规则不合适,第二个样例会定位到第二个有追评的。要改回来,排在第二个的评论无论有没有追评都作为第二个样例

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
uanaien 初级会员 发表于 2022-3-28 17:23:22 | 只看该作者
Fuller 发表于 2022-3-28 16:02
第一步:检查dom有什么不同看下图,有追评和没有追评的class不一样

感谢,已完美解决了问题。我还想问问如何在不下载图片的情况下获取评论是否含有图片的信息呢?就是需要区分出含与不含图片的评论。或者初评中有几张图片、追评中有几张图片等等。
举报 使用道具
6#
Fuller 管理员 发表于 2022-3-28 17:43:16 | 只看该作者
uanaien 发表于 2022-3-28 17:23
感谢,已完美解决了问题。我还想问问如何在不下载图片的情况下获取评论是否含有图片的信息呢?就是需要区 ...

要创建抓取内容,用于存图片网址。因为有多个图片,应该用一个嵌套的整理箱,用样例复制抓取图片网址。在采集结果中数数有多少网址
举报 使用道具
7#
lw2219 初级会员 发表于 2022-4-16 22:11:55 | 只看该作者
Fuller 发表于 2022-3-28 17:43
要创建抓取内容,用于存图片网址。因为有多个图片,应该用一个嵌套的整理箱,用样例复制抓取图片网址。在 ...

兄弟,你这个解决了吗?我也想试试这个
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 10:03