集搜客GooSeeker网络爬虫

标题: 使用xpath,为什么爬取的内容是相同的 [打印本页]

作者: thankful123    时间: 2020-12-5 18:04
标题: 使用xpath,为什么爬取的内容是相同的
本帖最后由 thankful123 于 2020-12-5 18:06 编辑

[attach]13352[/attach][attach]13353[/attach][attach]13354[/attach]
规则验证是正确的,使用xpath爬取,结果是错的,每条内容是重复的,并且条数也不对

作者: Fuller    时间: 2020-12-5 22:47
如果做了样例复制映射,自定义xpath不能是以 // 或者 / 开头的,这种开头的是绝对定位的。而是应该以 ./ 开头,这是相对定位,要相对于样例区块对应的DOM上的节点。每个样例在网页上都是一个区块,对应一个节点,比如,div。那么这个区块内部的抓取内容的定位xpath就是相对于这个区块节点的
作者: thankful123    时间: 2020-12-7 09:34
Fuller 发表于 2020-12-5 22:47
如果做了样例复制映射,自定义xpath不能是以 // 或者 / 开头的,这种开头的是绝对定位的。而是应该以 ./ 开 ...

[attach]13360[/attach]
你好,修改了相对定位,爬取结果是空的

作者: Fuller    时间: 2020-12-7 10:05
thankful123 发表于 2020-12-7 09:34
你好,修改了相对定位,爬取结果是空的

规则名字是什么?发出来我就能加载看看

作者: thankful123    时间: 2020-12-7 10:13
Fuller 发表于 2020-12-7 10:05
规则名字是什么?发出来我就能加载看看

测试xp

作者: 内容分析应用    时间: 2020-12-7 11:05
thankful123 发表于 2020-12-7 10:13
测试xp

[attach]13361[/attach]
我看你这个规则, 整理箱节点已经定位到了p, 那么xpath就直接写个点(.), 就可以看到测试结果是有东西的








欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2