在网址:https://www.nature.com/articles/s41467-018-06273-3
1640882039(1).jpg
Additional Information的部分可以用Xpath://*[@id='additional-information-section'] 定位

但在网址:https://www.nature.com/articles/ncomms12600
image.jpg
Additional Information的部分只能用Xpath://*[@class='c-article-section' and contains(./h2,'Additional information')]

但现在有几万条数据需要爬取,那如何同时使用这两个定位方式呢?(比如这个规则不适配就换另一个)谢谢
image.jpg
1640882119(1).jpg
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-12-31 16:21

Fuller 管理员 发表于 2021-12-31 07:42:22 | 显示全部楼层
我看到Additional Information都在DIV的H2下面,没有变化。如果你想爬Publisher's note,就用Publisher's note这串字符做定位
举报 使用道具
2574586329 中级会员 发表于 2021-12-31 10:52:32 | 显示全部楼层
Fuller 发表于 2021-12-31 07:42
我看到Additional Information都在DIV的H2下面,没有变化。如果你想爬Publisher's note,就用Publisher's n ...

但不一定都是publisher's note,我希望是所有additional information的内容示例网址:
第一类Additional information:
https://www.nature.com/articles/ncomms12878
https://www.nature.com/articles/ncomms12851
https://www.nature.com/articles/ncomms12918
https://www.nature.com/articles/ncomms12861
https://www.nature.com/articles/ncomms12938
https://www.nature.com/articles/ncomms12771
https://www.nature.com/articles/ncomms12815
https://www.nature.com/articles/ncomms12789
https://www.nature.com/articles/ncomms12835
https://www.nature.com/articles/ncomms12808
https://www.nature.com/articles/ncomms12890
https://www.nature.com/articles/ncomms12957
https://www.nature.com/articles/ncomms12714
https://www.nature.com/articles/ncomms12608


第二类:
https://www.nature.com/articles/s41467-021-26472-9
https://www.nature.com/articles/s41467-021-26902-8
https://www.nature.com/articles/s41467-021-27453-8
https://www.nature.com/articles/s41467-021-26901-9
https://www.nature.com/articles/s41467-021-27487-y
https://www.nature.com/articles/s41467-021-27454-7
https://www.nature.com/articles/s41467-021-27365-7
https://www.nature.com/articles/s41467-021-27536-6
https://www.nature.com/articles/s41467-021-27350-0
https://www.nature.com/articles/s41467-021-26280-1
https://www.nature.com/articles/s41467-021-27589-7
https://www.nature.com/articles/s41467-021-27360-y
https://www.nature.com/articles/s41467-021-27599-5
https://www.nature.com/articles/s41467-021-27168-w



image.jpg
image.jpg
image.jpg
举报 使用道具
Fuller 管理员 发表于 2021-12-31 11:30:08 | 显示全部楼层
你希望采集到什么内容?additional information下的无论什么内容,有什么就采集什么,是这样吗?
举报 使用道具
Fuller 管理员 发表于 2021-12-31 11:30:48 | 显示全部楼层
你做的规则名是什么?我加载上来看看
举报 使用道具
2574586329 中级会员 发表于 2021-12-31 11:46:42 | 显示全部楼层
Fuller 发表于 2021-12-31 11:30
你做的规则名是什么?我加载上来看看

我现在设置了两个规则名称
一个叫
Communication文章详细内容爬取_12.31更新为了那些网址中不含有ncomms的网址     
一个叫
Commu_ncomms_详细内容
为了那些网址中有ncomms的网址
举报 使用道具
2574586329 中级会员 发表于 2021-12-31 11:47:17 | 显示全部楼层
Fuller 发表于 2021-12-31 11:30
你希望采集到什么内容?additional information下的无论什么内容,有什么就采集什么,是这样吗? ...

是的,麻烦帮我看一下规则,谢谢
举报 使用道具
Fuller 管理员 发表于 2021-12-31 16:21:57 | 显示全部楼层
2574586329 发表于 2021-12-31 11:46
我现在设置了两个规则名称
一个叫
Communication文章详细内容爬取_12.31更新为了那些网址中不含有ncomms ...

如果使用第二个规则,整个additional information都能采集下来,这样达不到你的目标吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 18:21