如何写同一个定位点不一样的Xpath语言

加为好友

在网址：https://www.nature.com/articles/s41467-018-06273-3中

Additional Information的部分可以用Xpath：//*[@id='additional-information-section'] 定位

但在网址：https://www.nature.com/articles/ncomms12600中

Additional Information的部分只能用Xpath：//*[@class='c-article-section' and contains(./h2,'Additional information')]

但现在有几万条数据需要爬取，那如何同时使用这两个定位方式呢？（比如这个规则不适配就换另一个）谢谢

Fuller · 发表于 2021-12-31 07:42:22

我看到Additional Information都在DIV的H2下面，没有变化。如果你想爬Publisher's note，就用Publisher's note这串字符做定位

2574586329 · 发表于 2021-12-31 10:52:32

Fuller 发表于 2021-12-31 07:42
我看到Additional Information都在DIV的H2下面，没有变化。如果你想爬Publisher's note，就用Publisher's n ...

Fuller · 发表于 2021-12-31 11:30:08

你希望采集到什么内容？additional information下的无论什么内容，有什么就采集什么，是这样吗？

Fuller · 发表于 2021-12-31 11:30:48

你做的规则名是什么？我加载上来看看

2574586329 · 发表于 2021-12-31 11:46:42

Fuller 发表于 2021-12-31 11:30
你做的规则名是什么？我加载上来看看

我现在设置了两个规则名称
一个叫
Communication文章详细内容爬取_12.31更新为了那些网址中不含有ncomms的网址
一个叫
Commu_ncomms_详细内容
为了那些网址中有ncomms的网址

2574586329 · 发表于 2021-12-31 11:47:17

Fuller 发表于 2021-12-31 11:30
你希望采集到什么内容？additional information下的无论什么内容，有什么就采集什么，是这样吗？ ...

是的，麻烦帮我看一下规则，谢谢

Fuller · 发表于 2021-12-31 16:21:57

2574586329 发表于 2021-12-31 11:46
我现在设置了两个规则名称
一个叫
Communication文章详细内容爬取_12.31更新为了那些网址中不含有ncomms ...

如果使用第二个规则，整个additional information都能采集下来，这样达不到你的目标吗？

如何写同一个定位点不一样的Xpath语言

本帖子中包含更多资源

共 7 个关于本帖的回复最后回复于 2021-12-31 16:21

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

如何写同一个定位点不一样的Xpath语言

本帖子中包含更多资源

共 7 个关于本帖的回复 最后回复于 2021-12-31 16:21

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2021-12-31 16:21