问题:我想抓取这个网页上的用户评论(用户名、时间和评论内容),但是还没设置样例复制呢,只是进行了一下内容映射,比如映射第一条评论,结果会搜出来同样的两条数据,不知道为什么。做了样例复制后,我看了下测试结果,貌似是所有评论爬了一遍之后,又重复得到了一遍,样本网址http://www.programmableweb.com/api/google-maps/comments
原因:是因为生成的数据规则是根据id=comments的节点来计算的,但是网页有两个id=comments节点,所以输出信息才会重复两遍
解决:把整理箱改为三层结构,用第一个id=comments节点做定位标志映射给整理箱顶点,就能改变数据规则的路径,就不会重复提取了
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 1 个关于本帖的回复 最后回复于 2015-11-19 15:42