开始运行之后,第一第二页采集之后,又会跳回第一页再次循环,永远到不了第三页,请问是什么情况?
附上网页地址:https://www.airbnb.cn/s/homes?query=%E5%B9%BF%E5%B7%9E&refinement_paths%5B%5D=%2Fhomes&allow_override%5B%5D=&s_tag=1sbTCY5g

微信截图_20190405133227.png (74.3 KB, 下载次数: 674)

微信截图_20190405133227.png

微信截图_20190405132944.png (112.23 KB, 下载次数: 683)

微信截图_20190405132944.png

微信截图_20190405133216.png (129.77 KB, 下载次数: 671)

微信截图_20190405133216.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-4-6 10:13

沙发
Fuller 管理员 发表于 2019-4-5 17:04:09 | 只看该作者
根据你的截图,主题名应该是 评价m,但是没有搜到。

根据你的第一个截图,生成的翻页规则含有一个特殊的class值,这个值看起来像一个唯一的id值,用这个翻页不行,点击“定位选项”按钮,选择偏好id
举报 使用道具
板凳
z862736855 新手上路 发表于 2019-4-5 17:37:16 | 只看该作者
Fuller 发表于 2019-4-5 17:04
根据你的截图,主题名应该是 评价m,但是没有搜到。

根据你的第一个截图,生成的翻页规则含有一个特殊的cl ...

你好  主题名是:评论zx
我刚刚试了改成偏好id  然后还是重复1.2页了
举报 使用道具
地板
Fuller 管理员 发表于 2019-4-6 09:37:24 | 只看该作者
z862736855 发表于 2019-4-5 17:37
你好  主题名是:评论zx
我刚刚试了改成偏好id  然后还是重复1.2页了
...

我也试了很多遍,关键问题在于代表下一页的按钮和代表上一页的按钮的区别是在svg节点内部的。而爬虫翻页识别不了svg节点内部的内容。

当翻到第二页以后,最前面就出现了“上一页”按钮,爬虫就误以为是“下一页”按钮了
举报 使用道具
5#
Fuller 管理员 发表于 2019-4-6 10:13:35 | 只看该作者
z862736855 发表于 2019-4-5 17:37
你好  主题名是:评论zx
我刚刚试了改成偏好id  然后还是重复1.2页了
...

终于搞定了,用相对线索

当前页码是绿色的,下一个页码是白色的,因为有颜色区别,一定是class控制的,控制颜色的class在BUTTON节点上。看上图分别做翻页区映射和当前页码映射和下一页码映射。页码映射用BUTTON节点。定位偏好要设置成偏好class,不能用偏好id

生成的定位当前页码的xpath是
  1. //*[@class='_11hau3k']/li[count(.//*[@class='_1obhjxp6'])>0 and count(following-sibling::li[position()=1 and @class='_1eqazlr']//*[@class='_5u96sq'])>0 and @class='_w1zx0fa']
复制代码
经过测试,这样还不行,翻页到下一页对比观察,发现,翻页下一页后,出现了“上一页”按钮,这个按钮的li的class='_w1zx0fa',说明第一个按钮总是有这个class,所以,上面生成xpath不能含有这个class。那么就要手工修改规则。
手工修改一定要按照以下顺序
1,先“存规则”,存的规则是自动生成的xpath,就是上面那个
2,进入“线索规则”编辑窗口,在xpath中删除   and @class='_w1zx0fa' 这些字符
3,点击旁边的“保存修改”。千万不能再点击“存规则”了,如果点击存规则,又会用自动生成的规则覆盖了手工修改的规则
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 19:16