求教啊!!!
为什么在做抓取酒店列表下的详情数据以及模拟点击之后的评论数据的规则老是出错,第三级模拟点击之后的规则重新加载后老是会显示如下:
加载抓取规则遇到的错误:
无法定位容器 No.0
无法定位抓取内容 No.2 (情景2);XPath是following-sibling::p[position()=1]
无法定位抓取内容 No.3 (情景2);XPath是following-sibling::p[position()=2]
无法定位抓取内容 No.4 (情景2);XPath是following-sibling::p[position()=3]
无法定位容器 No.0
无法定位容器 No.0
无法定位容器 No.0、、、
而且为什么有时候抓取也只能抓到一个样本酒店的评论数据,我想要多个酒店的评论数据啊?
请问大神们,这个怎么解决呢????欢迎解答!
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-11-23 21:39

沙发
Fuller 管理员 发表于 2016-11-23 19:45:31 | 只看该作者
主题名是什么?
举报 使用道具
板凳
度有涯之年 初级会员 发表于 2016-11-23 19:48:08 | 只看该作者
分别是xp_五星酒店搜索页面、xp_五星酒店页面、xp_五星评论页面
举报 使用道具
地板
Fuller 管理员 发表于 2016-11-23 19:57:04 | 只看该作者
是这个主题有问题吗?xp_五星评论页面



我看到“总体评分”都没有定位上,容器节点“总体评分”可以做定位标志映射。我不知道你想采集什么内容,假设是截图上面那些,你可以找到这个网页区块的DOM节点,是一个DIV,如果它有@class或者@id,或者他的祖先有,就做定位标志映射,映射给“总体评分”


你有这么多整理箱,如果容器节点不做定位标志映射,很容易定位混乱
举报 使用道具
5#
度有涯之年 初级会员 发表于 2016-11-23 20:15:47 | 只看该作者
不是啊不是啊,这个数据我在xp_五星酒店搜索页面已经采集了。。。。我要的是这个酒店页面模拟点击之后的因子评分(位置、设施、服务、卫生),然后还有每条评论的信息(包括是否回复)。。。我在做一遍给您看看吧,这个可能是加载过所以就看不到了。。。






举报 使用道具
6#
Fuller 管理员 发表于 2016-11-23 21:39:01 | 只看该作者
度有涯之年 发表于 2016-11-23 20:15
不是啊不是啊,这个数据我在xp_五星酒店搜索页面已经采集了。。。。我要的是这个酒店页面模拟点击之后的因 ...



加载了抓取规则以后,不要急着执行后续分析,应该这样的顺序
1)点击工具条中间的“内容定位”,不要勾选
2)点击酒店点评,要把点评信息显示出来
3)选择菜单 “规则”-〉“后续分析”

基本上能分析成功,只差“是否回复”,估计这个信息时有时无,要做自定义xpath,而且定位xpath和内容xpath不一样,定位xpath指向一个网页上总是有的节点,内容xpath才是你要抓取内容的节点,因为加载规则的时候,使用定位xpath,所以,总是能加载成功,避开时有时无的节点。

另外,两个子容器的内容语义各不相同,应该用两个不同的整理箱
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 06:34