我爬取大众点评的某一个饭馆的评论 ,为什么爬取的“口味”和“环境”还有后面的“服务”的值都是“口味”的呢 ?就是说如果“口味”是“非常好”那么爬取的“环境”和“服务”也是“非常好” 。但是实际上“环境”和“服务”可能是其它的“很好”或者”好“的评论 。感觉各种操作也是对的 。为什么结果就是有这样的问题呢?
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-2-14 11:10

沙发
ym 版主 发表于 2015-12-1 18:06:12 | 只看该作者
应该是这三个信息定位的节点的属性值(id或class值)是相同的,才造成采集的内容一样,点击测试,去数据规则里看这三个字段的提取路径是一样的,要调整映射关系改变提取路径才能解决这样的问题。
在规则里做上定位标志,找这三个信息定位到的节点的上层节点做定位标志映射,再点击测试,这些提取路径就会改变了,参考教程http://www.gooseeker.com/doc/article-177-1.html
举报 使用道具
板凳
Fuller 管理员 发表于 2015-12-1 18:13:09 | 只看该作者
假设上层节点没有任何@class和@id可用,就做不了定位标志映射,在这种情况下,可以修改 定位的首选项。

选择 绝对定位,就能避免相同@class造成的干扰

举报 使用道具
地板
at90night 新手上路 发表于 2015-12-3 12:05:24 | 只看该作者
Fuller 发表于 2015-12-1 18:13
假设上层节点没有任何@class和@id可用,就做不了定位标志映射,在这种情况下,可以修改 定位的首选项。
选 ...

解决了我的问题 非常感谢
举报 使用道具
5#
moneyhunt 新手上路 发表于 2016-2-13 23:26:51 | 只看该作者
Fuller 发表于 2015-12-1 18:13
假设上层节点没有任何@class和@id可用,就做不了定位标志映射,在这种情况下,可以修改 定位的首选项。
选 ...

我和提主有相同的问题,感谢回答。不过照此操作以后,虽然环境/口味/服务三个字段都齐全了,但原本没问题的日期字段有部分数据缺失,星级字段也不完整,这又是为什么呢?谢谢!
举报 使用道具
6#
Fuller 管理员 发表于 2016-2-14 00:23:55 | 只看该作者
moneyhunt 发表于 2016-2-13 23:26
我和提主有相同的问题,感谢回答。不过照此操作以后,虽然环境/口味/服务三个字段都齐全了,但原本没问题 ...

可以把DOM结构的截图发出来看看,要具体分析一下。

也可以把规则名发出来,我们研究一下
举报 使用道具
7#
moneyhunt 新手上路 发表于 2016-2-14 10:17:41 | 只看该作者
Fuller 发表于 2016-2-14 00:23
可以把DOM结构的截图发出来看看,要具体分析一下。

也可以把规则名发出来,我们研究一下 ...

规则主题名是“权金城烤肉”,DOM结构啥的不太懂。。。谢谢;)
举报 使用道具
8#
Fuller 管理员 发表于 2016-2-14 11:09:07 | 只看该作者

大众点评网的抓取是很容易的,因为这个网站的网页做的是否标准,上面有很多@class可以做为定位标志,所以,抓取规则可以很有适应性。比如上图,把那个@class做定位标志映射,用相同的标志映射给那三个抓取内容,就能解决抓乱的问题,从截图上看,他们本来都有相同的@class=rst,容易抓乱,但是,通过做定位标志映射,人工指定定位标志,就能避开@class=rst,那么就不用设置绝对定位了,设置绝对定位总是不好,容易造成适应度下降。

网页上只有“星级”这个不好选定位标志,5星是@class=item-rank-rst irr-star50,4星是@class=item-rank-rst irr-star40,值不一样,那么就不要做定位标志映射,或者用自定义XPath,把starxxx这个数字避开。

另外,要至少给一个抓取内容设置关键内容,你没有设置,容易漏抓


举报 使用道具
9#
Fuller 管理员 发表于 2016-2-14 11:10:36 | 只看该作者
定位标志映射的讲解在《中级教程》:http://www.gooseeker.com/doc/article-132-1.html
尽量选用合适的定位标志,抓取规则的适应性会提高
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 12:17