问题:我想抓取这个网页上的用户评论(用户名、时间和评论内容),但是还没设置样例复制呢,只是进行了一下内容映射,比如映射第一条评论,结果会搜出来同样的两条数据,不知道为什么。做了样例复制后,我看了下测试结果,貌似是所有评论爬了一遍之后,又重复得到了一遍,样本网址http://www.programmableweb.com/api/google-maps/comments


原因:是因为生成的数据规则是根据id=comments的节点来计算的,但是网页有两个id=comments节点,所以输出信息才会重复两遍


解决:把整理箱改为三层结构,用第一个id=comments节点做定位标志映射给整理箱顶点,就能改变数据规则的路径,就不会重复提取了




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-11-19 15:42

沙发
Fuller 管理员 发表于 2015-11-19 15:42:08 | 只看该作者
还可以是网页节点搜索功能,确认一下某个@id 是否唯一,按照标准要求,id应该是唯一的,但是不唯一也是能用的。MS谋数台上有搜索功能,看能搜到几个节点,使用方法参看:http://www.gooseeker.com/doc/article-130-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 08:32