我希望知道我手上这些网址有没有PeerReviewFile的字段,如果有就给我我这个PeerReviewFile的pdf链接,如果没有那就回复No(或者别的也行,我可以在excel里后续编辑)
编辑规则的网址:https://www.nature.com/articles/s41467-018-02825-9#Sec20

别的可以用来尝试网址:
https://www.nature.com/articles/s41467-021-22035-0
https://www.nature.com/articles/s41467-021-22702-2
https://www.nature.com/articles/s41467-021-23070-7
https://www.nature.com/articles/s41467-021-22860-3
https://www.nature.com/articles/s41467-021-23010-5
https://www.nature.com/articles/s41467-021-22703-1
https://www.nature.com/articles/s41467-021-22840-7
https://www.nature.com/articles/s41467-021-22806-9
https://www.nature.com/articles/s41467-021-22837-2
https://www.nature.com/articles/s41467-021-22826-5
https://www.nature.com/articles/s41467-021-22853-2
https://www.nature.com/articles/s41467-021-22825-6
https://www.nature.com/articles/s41467-021-22748-2
https://www.nature.com/articles/s41467-021-22805-w
https://www.nature.com/articles/s41467-021-22747-3
https://www.nature.com/articles/s41467-021-21551-3
https://www.nature.com/articles/s41467-021-22765-1
https://www.nature.com/articles/s41467-021-22315-9
https://www.nature.com/articles/s41467-021-22423-6
https://www.nature.com/articles/s41467-021-22739-3
ddcb0f2ff146b2a42468a94a4825755.png
9ae199da8429251d2b48ed79a64eafc.png
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2021-8-6 20:16

Fuller 管理员 发表于 2021-8-5 19:13:26 | 显示全部楼层
为了采集这个pdf网址,不需要做动作,只需要做好抓取内容标注就行了。要做如下设置1,如果有些网页上没有这个网址,那么就不要勾选关键内容
2,要用自定义xpath,专门采集#text是“Peer Review File”的节点
举报 使用道具
2574586329 中级会员 发表于 2021-8-5 19:17:21 | 显示全部楼层
Fuller 发表于 2021-8-5 19:13
为了采集这个pdf网址,不需要做动作,只需要做好抓取内容标注就行了。要做如下设置1,如果有些网页上没有这 ...

怎么设置呢?要用自定义xpath,专门采集#text是“Peer Review File”的节点
我的定位节点已经写好了://div[contains(.//text(),'Peer Review File')]
举报 使用道具
Fuller 管理员 发表于 2021-8-5 19:21:34 | 显示全部楼层
第一步:正常做内容标注,找一个含有pdf的网页作为样本页面
1,用文章标题做第一个抓取内容。一定需要一个所有网页总是有的抓取内容,用来设置“关键内容”
2,用那个链接@href作为第二个抓取内容


标题7.png
举报 使用道具
Fuller 管理员 发表于 2021-8-5 19:27:31 | 显示全部楼层
第二步:查看采集规则,编辑自动生成的采集规则,编辑成自定义xpath
如下图,点击“测试”按钮,再点击“采集规则”,把红框里面的xpath拷贝出来
查看采集规则6.png

following-sibling::div[position()=1]//*[@class='print-link']/@href 这个xpath不只是定位到Peer Review File,还能定位到其他的。所以,要修改一下,变成
following-sibling::div[position()=1]//*[@class='print-link' and text()='Peer Review File']/@href

如下图,双击那个抓取内容,在设置页面上输入自定义xpath: following-sibling::div[position()=1]//*[@class='print-link' and text()='Peer Review File']/@href

自定义xpath7.png
举报 使用道具
Fuller 管理员 发表于 2021-8-5 19:31:18 | 显示全部楼层
第三步:存规则,记得把以前做的动作删除了。然后会会员中心的规则管理那里把其他网址添加进去

如下图,点击左边栏按钮进入会员中心
进入会员中心.png

添加网址,然后运行一下试试
添加网址3.png

举报 使用道具
Fuller 管理员 发表于 2021-8-5 19:32:09 | 显示全部楼层
第四步:导出数据。因为抓取链接那个抓取内容没有勾关键内容,凡是没有pdf文件的,导出数据这个字段就是空的
举报 使用道具
Fuller 管理员 发表于 2021-8-5 19:36:16 | 显示全部楼层
最终可以看到这样的结果
到处数据9.png
举报 使用道具
2574586329 中级会员 发表于 2021-8-6 19:24:07 | 显示全部楼层
Fuller 发表于 2021-8-5 19:36
最终可以看到这样的结果

我突然发现有的网址PeerReviewFile的text对应的不是PeerReviewFile,后面可能有一些别的内容
比如:https://www.nature.com/articles/s41467-018-03565-6#Sec23
这个时候该如何修改Xpath语言呢
麻烦您看下,谢谢啦
869b564aaad5f53d63f384c0f2ffd42.png
举报 使用道具
2574586329 中级会员 发表于 2021-8-6 19:40:12 | 显示全部楼层
在我爬取这个Pdf链接时发现,有的Pdf对应的的text有区别,那像这个时候Xpath语言要怎么改呢
本来的Xpath语言:following-sibling::div[position()=1]//*[@class='print-link' and text()='Peer Review File']/@href
网址:https://www.nature.com/articles/s41467-018-03565-6#Sec23

d03d4d6c0d638afc419c5dae57fd21d.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:00