比如这个网站:https://www.iau-aiu.net/Publications

上面有很多跟大学教育有关的政策文件,都是pdf格式的。我要下载下来,但是这些文件的链接散布在文字中,没法定义样例复制规则。

有办法像下载图片和视频那样一次下载多个pdf文件吗?


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2022-3-14 14:51

沙发
Fuller 管理员 发表于 2022-3-12 18:43:15 | 只看该作者
集搜客数据管家V11.1.0版本才支持这个功能。定义规则的时候要注意:大部分情况下是要自定义xpath的,过程是:1. 先用包含所有pdf文件的那个网页区域做内容映射
2. 点击“测试”按钮,找到采集规则,将xpath拷贝出来进行编辑
3. 进入自定义xpath弹窗,编辑好的那个xpath作为定位xpath,再写一个内容xpath。

例如,针对这个网页,用红框的内容做内容映射,然后如下图自定义xpath。分别输入定位xpath和内容xpath的原因:用定位xpath划定一个网页区域,然后用内容xpath从这个区域中采集内容

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
thursdayrain 中级会员 发表于 2022-3-14 14:38:26 | 只看该作者
我试了一下,文件没有下载下来。是不是path没有写对?帮我写两个path吧
任务名:新西兰教育部_战略和政策_详情_文件下载
举报 使用道具
地板
Fuller 管理员 发表于 2022-3-14 14:45:07 | 只看该作者
thursdayrain 发表于 2022-3-14 14:38
我试了一下,文件没有下载下来。是不是path没有写对?帮我写两个path吧
任务名:新西兰教育部_战略和政策_ ...

你写的内容xpath是:
  1. .//a/@href[contains(.,'.pdf')
复制代码
最后少了方括号,应该是
  1. .//a/@href[contains(.,'.pdf')]
复制代码


举报 使用道具
5#
thursdayrain 中级会员 发表于 2022-3-14 14:51:18 | 只看该作者
本帖最后由 thursdayrain 于 2022-3-14 14:53 编辑

好了,谢谢,从一个网页一下子下载18个PDF文件,强!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 07:12