快捷导航
规则名: jd-模拟1          jd-模拟2

我想要爬取京东商品 https://item.jd.com/7081550.html 的所有中评评论

我是参照这篇文章 https://www.gooseeker.com/doc/article-150-1.html 通过模拟点击爬取用户中评评论

第一层级模拟点击:

选区_012.png


第二层级翻页区:

选区_013.png

遇到的问题:
只有第一个xml 是中评数据, 从第二个 xml 开始, 就跳转到好评评论的第二页, 开始爬取好评了

问题

问题

请问各位前辈, 为什么中评页面翻页后会跳转到好评页面?? 我本来想每次翻页后做一次中评的模拟点击,

后来发现每次模拟点击后, 只能跳转到中评评论的第一页, 这样的话,永远只能爬取中评页面的第一页评论了~~
每次翻页后, 怎样限制爬虫只在中评页面翻页呢??


举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2018-7-1 19:46

Fuller 管理员 发表于 2018-7-1 18:08:10 | 显示全部楼层
以前没有这样做过,所以也没有遇到这个问题,测试了半天才发现有4个翻页区,分别对应各种级别的评论,如果不做约束,自动生成的那个翻页用的xpath就会定位到好评
4个翻页区20180701180133.png

把生成的xpath用来搜索,能搜到4个。而中评是在comment_4中。xpath可以手工修改。但是要注意顺序
1,自动生成规则以后,点击“存规则”
2,在上面截图所示的线索规则那里,直接手工修改,修改成
  1. //*[@id='comment-4']//*[@class='ui-page']//a[.//text()="下一页"]
复制代码
3,点击“保存修改”,不能点击“存规则”


注意,下次再点击“存规则”的话,又会被自动生成的规则冲掉,需要再次手工修改,然后用“保存修改”


举报 使用道具
geekfan 初级会员 发表于 2018-7-1 19:46:14 | 显示全部楼层
Fuller 发表于 2018-7-1 18:08
以前没有这样做过,所以也没有遇到这个问题,测试了半天才发现有4个翻页区,分别对应各种级别的评论,如果 ...

非常感谢, 完全解决了问题

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 大型百货商场会员画像描绘
  • 自动导入导出数据
  • 批量爬取蘑菇街商品价格、评论信息
  • 微博用户数据分析
  • 批量爬取苏宁商品价格、评论信息

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-9-20 13:28