问题:我想抓取这个网页上的用户评论(用户名、时间和评论内容),但是还没设置样例复制呢,只是进行了一下内容映射,比如映射第一条评论,结果会搜出来同样的两条数据,不知道为什么。做了样例复制后,我看了下测试结果,貌似是所有评论爬了一遍之后,又重复得到了一遍,样本网址http://www.programmableweb.com/api/google-maps/comments
QQ图片20151119151730.png

原因:是因为生成的数据规则是根据id=comments的节点来计算的,但是网页有两个id=comments节点,所以输出信息才会重复两遍
QQ图片20151119152207.png

解决:把整理箱改为三层结构,用第一个id=comments节点做定位标志映射给整理箱顶点,就能改变数据规则的路径,就不会重复提取了
QQ图片20151119152213.png



举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-11-19 15:42

Fuller 管理员 发表于 2015-11-19 15:42:08 | 显示全部楼层
还可以是网页节点搜索功能,确认一下某个@id 是否唯一,按照标准要求,id应该是唯一的,但是不唯一也是能用的。MS谋数台上有搜索功能,看能搜到几个节点,使用方法参看:http://www.gooseeker.com/doc/article-130-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 18:21