本帖最后由 ym 于 2017-2-8 15:06 编辑
常见问题 > 制作规则—常见问题导航 > 定位标志 > 做定位标志后抓到空白/重复的信息,怎么解决
情景:如果输出信息有两个以上抓取内容是抓到相同的信息,或者抓到的是空白信息。
解决方法:
方法1:点击整理箱左侧定位修改首选项,选择绝对定位,然后再重新做内容映射就可以了。
方法2:假如这几个信息共同的上层节点具有属性值(id或class),并且这个属性值是唯一的,这时不用修改整理箱首选项,重新做内容映射后,再把上层节点分别做定位标志映射给这几个信息的抓取内容,就可以解决。
原因分析:这几个信息的dom结构是相同的,例如下图,这个表里每一格的信息都是存在TD[@class='report1_5']下的#text节点里,它们的dom结构也都是相同的,对这种网页结构做规则,生成的数据规则里的xpath路径就会一样,爬虫是默认提取第一条信息,所以它们都抓到了一样的信息。
前面两个解决方法都是使这几个信息的xpath路径不同,然后就能采集到正确的信息了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 2 个关于本帖的回复 最后回复于 2016-9-11 00:26