4 10446

携程酒店抓取问题

paperrat 于 2021-6-3 20:32 发表 [复制链接]
是这个地址:https://hotels.ctrip.com/hotels/ ... checkout=2021/06/04
有如下几个问题:
1、如何实现不断滚屏翻页,这个页面需要拉到最底下,几次以后会出现 “搜索更多酒店”的按钮,需要点击。。。
2、我需要判断酒店的级别是”五星“还是”五钻“,这个它是以图片数量和css类别展现的,不知如何抓取。。。

以上,还请版主不吝赐教。
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-6-6 12:41

Fuller 管理员 发表于 2021-6-3 20:42:03 | 显示全部楼层
你的规则有没有存?规则名发出来我可以针对你的规则讲解
举报 使用道具
paperrat 中级会员 发表于 2021-6-6 06:16:42 | 显示全部楼层
Fuller 发表于 2021-6-3 20:42
你的规则有没有存?规则名发出来我可以针对你的规则讲解

你好,我已经存好规则如下:
1、主线规则是:“携程test11”,他的问题是无法滚到最后,因为这个地址的页面需要到最底下后自动刷出新的内容,然后滚3次左右后,会出现一个“查看更多酒店”的按钮,需要点击。按照上述循环,直到出现“没有更多数据”,我这个不知道改怎么弄了(要么滚屏+等待,要么点击按钮,直到啥动静没有)。。。可参考这个地址和下面的页面https://hotels.ctrip.com/hotels/ ... checkout=2021/06/07

image.jpg

2、动作采集规则是 “xc-sub”,可以采集到,但是不知道如何获得几星或者几钻的信息(这个很关键)。。。如下图
image.jpg
image.jpg

以上,急盼您的帮助。



举报 使用道具
Fuller 管理员 发表于 2021-6-6 09:01:32 | 显示全部楼层
paperrat 发表于 2021-6-6 06:16
你好,我已经存好规则如下:
1、主线规则是:“携程test11”,他的问题是无法滚到最后,因为这个地址的页 ...

我这里加载携程的酒店详情页立即跳转到登录,登录了也不行,所以,没法实测一下你的规则。建议这样修改:

1,点击动作勾上这些选项。关闭爬虫的自动滚屏,有了这些选项,点击前一定要做对准动作,就附带实现了滚屏
dianji.png

2,要抓取星级,需要用@class做内容映射,但是又不能让这个class作为定位标志。爬虫生成规则的时候会自动选择一些定位标志,为了防止爬虫自动选择不合适的定位标志,那么就用手工做定位映射,找这个class的上级节点,或者更高级节点,找一个含有class的节点做定位标志映射,具体参看教程:https://www.gooseeker.com/doc/article-527-1.html
举报 使用道具
paperrat 中级会员 发表于 2021-6-6 12:41:40 | 显示全部楼层
Fuller 发表于 2021-6-6 09:01
我这里加载携程的酒店详情页立即跳转到登录,登录了也不行,所以,没法实测一下你的规则。建议这样修改: ...

好的,我先试一下,携程的登陆,我是用携程App中的我的里面的扫码扫一下就能能录了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:15