采集网址是:http://www.zj.gov.cn/art/2018/1/12/art_1229278037_2309113.html

因为索引号、主题分类是用tr、th、td来写的只能用xpath定位
image.png

然后用以下xpath查找了下,能找到(两个)元素:
//th[contains(text(),"索引号")]/following::td[1]

然后写入定义xpath,测试用了索引号和主体分类两个字段
image.png    image.png


但采集结果是索引号和主题分类采集到的的都是索引号“002482170/2018-768274”的值,请问问题出在哪里?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2022-1-6 16:44

Fuller 管理员 发表于 2021-12-23 17:36:16 | 显示全部楼层
你的规则名是什么?我加载上来测试一下
举报 使用道具
ksdfheui 新手上路 发表于 2021-12-28 09:13:18 | 显示全部楼层
Fuller 发表于 2021-12-23 17:36
你的规则名是什么?我加载上来测试一下

规则名:
浙江省信息公开-法规文件-正文采集
谢谢大佬!


举报 使用道具
Fuller 管理员 发表于 2021-12-28 09:46:46 | 显示全部楼层
ksdfheui 发表于 2021-12-28 09:13
规则名:
浙江省信息公开-法规文件-正文采集
谢谢大佬!

如果搜到多个,可以这样写,只用其中一个:(//th[contains(text(),"主题分类")])[1]/following::td[1]
举报 使用道具
Fuller 管理员 发表于 2021-12-28 09:56:03 | 显示全部楼层
因为这些字段都有相同的class,如果爬虫规则使用了class作为定位标志,就会出错。可以选择“只用id”。只用id可能导致爬虫规则适应性下降,如果采集其他网页不适应,再考虑自定义xpath

只用id36.png
举报 使用道具
ksdfheui 新手上路 发表于 2022-1-6 16:44:10 | 显示全部楼层
Fuller 发表于 2021-12-28 09:56
因为这些字段都有相同的class,如果爬虫规则使用了class作为定位标志,就会出错。可以选择“只用id”。只用 ...

谢谢,因为id是变化的,所以只能用xpath了……
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 12:48