集搜客GooSeeker网络爬虫

标题: 使用xpath，为什么爬取的内容是相同的 [打印本页]

作者: thankful123 时间: 2020-12-5 18:04
标题: 使用xpath，为什么爬取的内容是相同的
本帖最后由 thankful123 于 2020-12-5 18:06 编辑

[attach]13352[/attach][attach]13353[/attach][attach]13354[/attach]
规则验证是正确的，使用xpath爬取，结果是错的，每条内容是重复的，并且条数也不对

作者: Fuller 时间: 2020-12-5 22:47
如果做了样例复制映射，自定义xpath不能是以 // 或者 / 开头的，这种开头的是绝对定位的。而是应该以 ./ 开头，这是相对定位，要相对于样例区块对应的DOM上的节点。每个样例在网页上都是一个区块，对应一个节点，比如，div。那么这个区块内部的抓取内容的定位xpath就是相对于这个区块节点的

作者: thankful123 时间: 2020-12-7 09:34

Fuller 发表于 2020-12-5 22:47
如果做了样例复制映射，自定义xpath不能是以 // 或者 / 开头的，这种开头的是绝对定位的。而是应该以 ./ 开 ...

[attach]13360[/attach]
你好，修改了相对定位，爬取结果是空的

作者: Fuller 时间: 2020-12-7 10:05

thankful123 发表于 2020-12-7 09:34
你好，修改了相对定位，爬取结果是空的

规则名字是什么？发出来我就能加载看看

作者: thankful123 时间: 2020-12-7 10:13

Fuller 发表于 2020-12-7 10:05
规则名字是什么？发出来我就能加载看看

测试xp

作者: 内容分析应用 时间: 2020-12-7 11:05

thankful123 发表于 2020-12-7 10:13
测试xp

[attach]13361[/attach]
我看你这个规则，整理箱节点已经定位到了p，那么xpath就直接写个点(.), 就可以看到测试结果是有东西的

欢迎光临集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)