求教xpath轴定位写入定义xpath后采集信息不准确

ksdfheui

采集网址是：http://www.zj.gov.cn/art/2018/1/12/art_1229278037_2309113.html

因为索引号、主题分类是用tr、th、td来写的只能用xpath定位

然后用以下xpath查找了下，能找到（两个）元素：
//th[contains(text(),"索引号")]/following::td[1]

然后写入定义xpath，测试用了索引号和主体分类两个字段

但采集结果是索引号和主题分类采集到的的都是索引号“002482170/2018-768274”的值，请问问题出在哪里？

Fuller · 发表于 2021-12-23 17:36:16

你的规则名是什么？我加载上来测试一下

ksdfheui · 发表于 2021-12-28 09:13:18

Fuller 发表于 2021-12-23 17:36
你的规则名是什么？我加载上来测试一下

规则名：
浙江省信息公开-法规文件-正文采集
谢谢大佬！

Fuller · 发表于 2021-12-28 09:46:46

ksdfheui 发表于 2021-12-28 09:13
规则名：
浙江省信息公开-法规文件-正文采集
谢谢大佬！

如果搜到多个，可以这样写，只用其中一个：(//th[contains(text(),"主题分类")])[1]/following::td[1]

Fuller · 发表于 2021-12-28 09:56:03

因为这些字段都有相同的class，如果爬虫规则使用了class作为定位标志，就会出错。可以选择“只用id”。只用id可能导致爬虫规则适应性下降，如果采集其他网页不适应，再考虑自定义xpath

ksdfheui · 发表于 2022-1-6 16:44:10

Fuller 发表于 2021-12-28 09:56
因为这些字段都有相同的class，如果爬虫规则使用了class作为定位标志，就会出错。可以选择“只用id”。只用 ...

谢谢，因为id是变化的，所以只能用xpath了……

求教xpath轴定位写入定义xpath后采集信息不准确

本帖子中包含更多资源

共 5 个关于本帖的回复最后回复于 2022-1-6 16:44

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

求教xpath轴定位写入定义xpath后采集信息不准确

本帖子中包含更多资源

共 5 个关于本帖的回复 最后回复于 2022-1-6 16:44

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2022-1-6 16:44