猫途鹰的游客评论需点击“更多” 才可以获取完整评论 , url没变化 , 这样改怎样爬取?
爬取的是英文评论 , 注意在语言栏要选中英语
https://www.tripadvisor.cn/Attraction_Review-g317090-d1855594-Reviews-Qingyan_Ancient_Town-Guiyang_Guizhou.html
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-3-10 16:28

wangyong 版主 发表于 2021-3-10 16:28:00 | 显示全部楼层
用集搜客的猫途鹰_旅游景点点评信息快捷采集,输入要采集的景点链接就可以采集
1,下载集搜客数据管家左侧的工具条进入快捷采集,选择猫途鹰_旅游景点点评信息
数据管家-猫途鹰.png
2,输入要采集的景点链接,如果是多个景点同时采集,则选择“输入多条网址”可以同时采集
采集完成后,在快捷采集管理页即可打包下载Excel格式的数据
猫途鹰数据样例.png

举报 使用道具
Fuller 管理员 发表于 2017-11-18 16:03:51 | 显示全部楼层
网址不变也不要紧,如果网页上有“更多”标志,让爬虫点击他就行了,可以像翻页那样点击,参看翻页抓取教程

可以用连续动作中的点击,要看高级教程中的连续动作一章

但是,我打开这个网页,看到评论是普通的 下一页 翻页
举报 使用道具
liuyingbin 新手上路 发表于 2017-11-18 16:10:06 | 显示全部楼层
Fuller 发表于 2017-11-18 16:03
网址不变也不要紧,如果网页上有“更多”标志,让爬虫点击他就行了,可以像翻页那样点击,参看翻页抓取教程 ...

它有“语言”选项 , 默认中文 , 选择英文 时, 会出现“更多 " .
gooseeker.png
举报 使用道具
liuyingbin 新手上路 发表于 2017-11-18 16:11:31 | 显示全部楼层
是每一个评论下基本都有”更多“ 。
举报 使用道具
Fuller 管理员 发表于 2017-11-18 16:16:33 | 显示全部楼层
liuyingbin 发表于 2017-11-18 16:10
它有“语言”选项 , 默认中文 , 选择英文 时, 会出现“更多 " .

这个要用连续动作中的连续点击,定义一个xpath,这个xpath要能包含所有的点击位置,这样,DS打数机就会自动地逐个点开。

注意,xpath必须包含所有的xpath,在MS谋数台上,可以用“搜索”按钮测试一下xpath是否能包含所有点击位置。不但要包含点击前的,也要能包含点击后已经展开的。如果不包含点击后的位置,你会发现打数机运行的时候会跳着点
举报 使用道具
liuyingbin 新手上路 发表于 2017-11-18 16:26:21 | 显示全部楼层
主题名:青岩古镇评论四
网站链接:https://www.tripadvisor.cn/Attraction_Review-g317090-d1855594-Reviews-Qingyan_Ancient_Town-Guiyang_Guizhou.html
爬取的结果            是评论未爬取完全 , ”更多“的无法显示 , 该怎样改?
举报 使用道具
Fuller 管理员 发表于 2017-11-18 16:59:22 | 显示全部楼层
liuyingbin 发表于 2017-11-18 16:26
主题名:青岩古镇评论四
网站链接:https://www.tripadvisor.cn/Attraction_Review-g317090-d1855594-Revie ...

你是想点击“英文”把更多显示出来?那需要两个主题
1,主题1,负责点击“英文”,用一个点击动作
2,主题2,负责点击“更多”,也负责翻页,并且采集内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:08