我做了两级规则,第一级负责点击“差评”,第二级负责采集评论内容并且翻页

运行的时候,我看到已经点击差评了,第一页也采集对了,等翻页到第二页的时候,又变成综合评价了。这是怎么回事?


举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2022-10-14 15:55

Fuller 管理员 发表于 2020-2-25 18:47:18 | 显示全部楼层
看下图,当点击“差评”以后,网页结构变了,在网页上的翻页条变成了3个。
我们知道,在评论列表下面是商品问答,也有翻页条,但是那个不影响,因为是在评论之后,爬虫翻页的时候使用第一个,不会用第二个或者更后的


那么,现在变成了3个翻页条,第一个是“综合评价”的,而差评的翻页条是第二个,所以,一点击“下一页”,又变成综合评论列表了。

为了解决这个问题,必须手工修改规则,手工修改规则有个缺点要记住:再次点击工具条上的“存规则”按钮,手工修改的内容就被冲掉了,所以,需要再次手工修改,修改后不能点击“存规则”,而是点击编辑框旁边的“保存修改”

要改成的翻页规则是
  1. //*[@id='comment-6']//*[@class='ui-page']//a[.//text()="下一页"]
复制代码
这里假设网页上的“差评”列表是放在id='comment-6'那个网页节点下的,如果某个页面不是这样,这个规则要调整。
京东翻页20200225182019.png
举报 使用道具
Fuller 管理员 发表于 2020-2-25 18:50:31 | 显示全部楼层
差评20200225184918.png

根据上图可以看到,“差评”都放在@id='comment-6'这个节点下,蓝色箭头是其他对应,如果要采集中评,也要做相应调整
举报 使用道具
wangyong 版主 发表于 2020-2-26 09:58:47 | 显示全部楼层
除了手工修改翻页规则后,可以将@id='comment-6'的节点作为翻页区映射
自动生成的翻页规则是:
  1. //*[@id='comment-6']//a[.//text()="下一页"]
复制代码
京东差评翻页.png

另外除了要修改翻页规则外,原先的抓取内容也要同步修改,需要做嵌套整理箱,将样例复制的节点限定在@id='comment-6'的节点下
也就是需要对整理箱中做样例复制的上级节点l做定位标志映射
京东差评定位.png
举报 使用道具
Fuller 管理员 发表于 2020-2-26 10:12:46 | 显示全部楼层
wangyong 发表于 2020-2-26 09:58
除了手工修改翻页规则后,可以将@id='comment-6'的节点作为翻页区映射
自动生成的翻页规则是:

这样方便,不用担心下次存规则冲掉手工修改的部分
举报 使用道具
zhangbeiyan 新手上路 发表于 2022-10-14 15:47:19 | 显示全部楼层
Fuller 发表于 2020-2-26 10:12
这样方便,不用担心下次存规则冲掉手工修改的部分

@Fuller

请大佬给看看我这边也是这种情况,但看完教程没有操作好

任务名:xiaoru京东差评前,   xiaoru京东差评后

举报 使用道具
Fuller 管理员 发表于 2022-10-14 15:55:28 | 显示全部楼层
zhangbeiyan 发表于 2022-10-14 15:47
@Fuller

请大佬给看看我这边也是这种情况,但看完教程没有操作好

看这个帖子:https://www.gooseeker.com/doc/thread-19492-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:30