问题:我想抓取这个网页上的用户评论(用户名、时间和评论内容),但是还没设置样例复制呢,只是进行了一下内容映射,比如映射第一条评论,结果会搜出来同样的两条数据,不知道为什么。做了样例复制后,我看了下测试结果,貌似是所有评论爬了一遍之后,又重复得到了一遍,样本网址http://www.programmableweb.com/api/google-maps/comments


原因:是因为生成的数据规则是根据id=comments的节点来计算的,但是网页有两个id=comments节点,所以输出信息才会重复两遍


解决:把整理箱改为三层结构,用第一个id=comments节点做定位标志映射给整理箱顶点,就能改变数据规则的路径,就不会重复提取了




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-11-19 15:42

沙发
Fuller 管理员 发表于 2015-11-19 15:42:08 | 只看该作者
还可以是网页节点搜索功能,确认一下某个@id 是否唯一,按照标准要求,id应该是唯一的,但是不唯一也是能用的。MS谋数台上有搜索功能,看能搜到几个节点,使用方法参看:http://www.gooseeker.com/doc/article-130-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-1-15 15:51