如何把pdf的内容采下来而不把附件下载下来

lubbio

我想采集一个贸易网站的pdf附件的全文内容
地址: https://www.usitc.gov/secretary/ ... tice03312021sgl.pdf
用这个地址制作规则后，大概需要批量采集5千多个相同结构的页面。但是正式采集时采集窗口会白屏，pdf内容采集不到，同时附件会自动下载下来。如何在把pdf的全文内容作为一个字段存下来的同时禁止采集窗口自动下载附件？
其他地址:
https://www.usitc.gov/secretary/ ... tice04122021sgl.pdf
https://www.usitc.gov/secretary/ ... tice03152021sgl.pdf

内容分析应用 · 发表于 2021-4-14 11:39:11

我测试了一下，确实是可以把整个pdf文件下载下来，不能直接采集pdf的内容。
目前爬虫无法把pdf内容解析成dom树，也就不能对pdf内容进行定位和获取。

lubbio · 发表于 2021-4-14 11:44:45

内容分析应用发表于 2021-4-14 11:39
我测试了一下，确实是可以把整个pdf文件下载下来，不能直接采集pdf的内容。
目前爬虫无法把pdf内容解析成 ...

也不用特定到pdf的具体内容，只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什么采集的时候页面加载不出来

内容分析应用 · 发表于 2021-4-14 12:03:02

lubbio 发表于 2021-4-14 11:44
也不用特定到pdf的具体内容，只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什 ...

采集的时候，有加载pdf内容，但是爬虫无法提取。
要把html节点下的内容采集下来，就需要爬虫先把pdf内容解析出来，然后生成整颗html树，目前爬虫软件没有这个功能

Fuller · 发表于 2021-4-14 12:04:35

lubbio 发表于 2021-4-14 11:44
也不用特定到pdf的具体内容，只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什 ...

下载文件功能跟从网页上采集内容是不同的，下载文件功能只管把文件存到硬盘，而不解析pdf文件。

如果想要整个pdf内容，可以自己用python解析pdf，参看这个帖子《Python读取pdf的内容》

共 4 个关于本帖的回复最后回复于 2021-4-14 12:04

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页