如何下载网页上的PDF文件？

thursdayrain

我有一批网页，网页上有PDF文件，但是这些文件在网页的位置不定，有时在网页的右边，有时在下边，有时在中间，比如下面的情形
https://www.icde.org/knowledge-hub/distance-education-in-myanmar
https://www.icde.org/knowledge-h ... network-report-2021
https://www.icde.org/knowledge-h ... -ljubljana-slovenia
https://www.icde.org/knowledge-h ... anguage-in-your-way

https://www.icde.org/knowledge-h ... f-new-book-on-moocs

怎样做个统一的下载规则，下载这些文件？要写x-path？

Fuller · 发表于 2022-3-8 16:19:39

你的采集规则有没有存盘？叫什么名字？我可以加载你的规则分析一下

Fuller · 发表于 2022-3-8 16:38:33

假设所有的网址都是有类似这样的结构： xxxx.pdf，那么就可以用自定义xpath，使用contains()过滤网址

第一步，正常做内容映射：用那个a元素的@href属性做映射

第二步，点击“测试”按钮，查看规则，找到那个抓取内容的xpath，下图红框里面的，只要双引号内部的内容，拷贝出来

第三步，编辑xpath，因为所有的网址是这样结尾的：xxxx.pdf，那么就写一个很通用的xpath。自定义xpath的时候，xpath的起点不要变。
这是内容映射以后得到的网址：following-sibling::div[position()=1]//*[@class='image-caption']/p/a/@href
起点是这个div节点：following-sibling::div
这个起点不要改变，而是改变后面的内容。要想通用，就使用//，表示一个节点下的任意一层都是备选节点，那么，写成这样：
following-sibling::div//a/@href[contains(., '.pdf')]
表示在起点下面的任意一层的a节点，如果a节点的@href属性含有.pdf字符串，就是要采集的内容。把上述xpath拷入下面的界面，就定义好了

如何下载网页上的PDF文件？

共 2 个关于本帖的回复最后回复于 2022-3-8 16:38

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

如何下载网页上的PDF文件？

共 2 个关于本帖的回复 最后回复于 2022-3-8 16:38

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2022-3-8 16:38