我想第一级线索抓取酒店搜索列表,二级采取所有酒店列表中的评论内容(需要在二级网址模拟点击才出现),可是在给样本设置模拟点击后,只能抓取样本页链接的酒店评论内容,就是并没有采集所有酒店搜索列表的评论内容,请问怎么解决呢??急求!!!在线等~~

样本链接模拟点击酒店.jpg (242.67 KB, 下载次数: 936)

样本链接模拟点击酒店.jpg

酒店搜索列表.jpg (160.82 KB, 下载次数: 890)

酒店搜索列表.jpg
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2021-2-1 17:08

来自 12#
wangyong 版主 发表于 2021-2-1 17:08:19 | 只看该作者
本帖最后由 wangyong 于 2021-2-4 11:32 编辑

下载集搜客的数据管家后,进入携程酒店评论采集的快捷采集入口,输入要采集的酒店网址链接,选择要采集的页码,启动采集

使用快捷采集可以通过查看示例,网址确认网址是否能够成功采集。

采集完成后点击打包数据,即可下载Excel格式的数据
数据展示:

举报 使用道具
沙发
shenzhenwan10 金牌会员 发表于 2016-11-26 11:55:42 | 只看该作者
看你的描述,应该是3级规则
1. 列表
2. 详情页,做模拟点击
3. 采集评论
举报 使用道具
板凳
度有涯之年 初级会员 发表于 2016-11-26 11:58:58 | 只看该作者
对啊,可是第一步采取的二级链接并不能作为下级线索来采取所有酒店的所有评论?就是一次规则采取的二级链接和酒店详情页的实际链接不一致啊》???
举报 使用道具
地板
Fuller 管理员 发表于 2016-11-26 12:03:29 | 只看该作者
度有涯之年 发表于 2016-11-26 11:58
对啊,可是第一步采取的二级链接并不能作为下级线索来采取所有酒店的所有评论?就是一次规则采取的二级链接 ...

主题名是什么?

只要下级网址是真正的url地址,就可以用,不用担心不是实际网址,可能是做了跳转,跳转过程都记录在结果文件中,fullpath是跳转前的网址,realpath是跳转后的网址,用这些信息就能匹配起来
举报 使用道具
5#
shenzhenwan10 金牌会员 发表于 2016-11-26 12:04:01 | 只看该作者
我的意思是,你的第2级规则,在爬虫路线里模拟点击对应的目标主题名,应该填写第3级的规则名
举报 使用道具
6#
度有涯之年 初级会员 发表于 2016-11-26 12:39:31 | 只看该作者
Fuller 发表于 2016-11-26 12:03
主题名是什么?

只要下级网址是真正的url地址,就可以用,不用担心不是实际网址,可能是做了跳转,跳转 ...

分别是xp_五星列表、xp_五星二级页面、xp_评论页面,谢谢啦!

举报 使用道具
7#
度有涯之年 初级会员 发表于 2016-11-26 12:39:57 | 只看该作者
shenzhenwan10 发表于 2016-11-26 12:04
我的意思是,你的第2级规则,在爬虫路线里模拟点击对应的目标主题名,应该填写第3级的规则名 ...

我是这么填的阿


举报 使用道具
8#
度有涯之年 初级会员 发表于 2016-11-26 12:40:23 | 只看该作者
Fuller 发表于 2016-11-26 12:03
主题名是什么?

只要下级网址是真正的url地址,就可以用,不用担心不是实际网址,可能是做了跳转,跳转 ...

怎么匹配呢?
举报 使用道具
9#
shenzhenwan10 金牌会员 发表于 2016-11-26 13:01:41 | 只看该作者
你的第二级规则里的模拟点击设置有问题,如下图:


模拟点击的记号值把评论数也包含了,你换一个页面就定位不到了。
应该把"全匹配”不要勾选,同时记号值改成“酒店点评”

举报 使用道具
10#
maomao 论坛元老 发表于 2018-4-14 19:28:14 | 只看该作者
现在采集 携程酒店,艺龙酒店,去哪儿酒店的数据,可以用Gooseeker数据DIY,只要输入网址,就可以采集,采集页数可以设置。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 02:36