我想采集一个贸易网站的pdf附件的全文内容
地址: https://www.usitc.gov/secretary/ ... tice03312021sgl.pdf
用这个地址制作规则后,大概需要批量采集5千多个相同结构的页面。但是正式采集时采集窗口会白屏,pdf内容采集不到,同时附件会自动下载下来。如何在把pdf的全文内容作为一个字段存下来的同时禁止采集窗口自动下载附件?
其他地址:
https://www.usitc.gov/secretary/ ... tice04122021sgl.pdf
https://www.usitc.gov/secretary/ ... tice03152021sgl.pdf

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-4-14 12:04

沙发
内容分析应用 金牌会员 发表于 2021-4-14 11:39:11 | 只看该作者
我测试了一下, 确实是可以把整个pdf文件下载下来, 不能直接采集pdf的内容。
目前爬虫无法把pdf内容解析成dom树, 也就不能对pdf内容进行定位和获取。
举报 使用道具
板凳
lubbio 中级会员 发表于 2021-4-14 11:44:45 | 只看该作者
内容分析应用 发表于 2021-4-14 11:39
我测试了一下, 确实是可以把整个pdf文件下载下来, 不能直接采集pdf的内容。
目前爬虫无法把pdf内容解析成 ...

也不用特定到pdf的具体内容,只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什么采集的时候页面加载不出来
举报 使用道具
地板
内容分析应用 金牌会员 发表于 2021-4-14 12:03:02 | 只看该作者
lubbio 发表于 2021-4-14 11:44
也不用特定到pdf的具体内容,只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什 ...

采集的时候, 有加载pdf内容, 但是爬虫无法提取。
要把html节点下的内容采集下来, 就需要爬虫先把pdf内容解析出来, 然后生成整颗html树, 目前爬虫软件没有这个功能



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
Fuller 管理员 发表于 2021-4-14 12:04:35 | 只看该作者
lubbio 发表于 2021-4-14 11:44
也不用特定到pdf的具体内容,只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什 ...

下载文件功能跟从网页上采集内容是不同的,下载文件功能只管把文件存到硬盘,而不解析pdf文件。

如果想要整个pdf内容,可以自己用python解析pdf,参看这个帖子《Python读取pdf的内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-18 13:26