快捷导航
我想采集一个贸易网站的pdf附件的全文内容
地址: https://www.usitc.gov/secretary/ ... tice03312021sgl.pdf
用这个地址制作规则后,大概需要批量采集5千多个相同结构的页面。但是正式采集时采集窗口会白屏,pdf内容采集不到,同时附件会自动下载下来。如何在把pdf的全文内容作为一个字段存下来的同时禁止采集窗口自动下载附件?
其他地址:
https://www.usitc.gov/secretary/ ... tice04122021sgl.pdf
https://www.usitc.gov/secretary/ ... tice03152021sgl.pdf
image.jpg
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-4-14 12:04

内容分析应用 金牌会员 发表于 2021-4-14 11:39:11 | 显示全部楼层
我测试了一下, 确实是可以把整个pdf文件下载下来, 不能直接采集pdf的内容。
目前爬虫无法把pdf内容解析成dom树, 也就不能对pdf内容进行定位和获取。
举报 使用道具
lubbio 中级会员 发表于 2021-4-14 11:44:45 | 显示全部楼层
内容分析应用 发表于 2021-4-14 11:39
我测试了一下, 确实是可以把整个pdf文件下载下来, 不能直接采集pdf的内容。
目前爬虫无法把pdf内容解析成 ...

也不用特定到pdf的具体内容,只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什么采集的时候页面加载不出来
举报 使用道具
内容分析应用 金牌会员 发表于 2021-4-14 12:03:02 | 显示全部楼层
lubbio 发表于 2021-4-14 11:44
也不用特定到pdf的具体内容,只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什 ...

采集的时候, 有加载pdf内容, 但是爬虫无法提取。
要把html节点下的内容采集下来, 就需要爬虫先把pdf内容解析出来, 然后生成整颗html树, 目前爬虫软件没有这个功能
QQ截图20210414120040.png


举报 使用道具
Fuller 管理员 发表于 2021-4-14 12:04:35 | 显示全部楼层
lubbio 发表于 2021-4-14 11:44
也不用特定到pdf的具体内容,只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什 ...

下载文件功能跟从网页上采集内容是不同的,下载文件功能只管把文件存到硬盘,而不解析pdf文件。

如果想要整个pdf内容,可以自己用python解析pdf,参看这个帖子《Python读取pdf的内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • “只用规则中的输入词”选项的使用方法
  • 去资源库下载规则,轻松抓数据
  • 采集下载指定网页区域内的所有图片
  • 如何使用快捷采集-以京东评论采集为例
  • 如何使用快捷采集-以知乎数据采集为例

热门用户

GMT+8, 2021-5-8 00:52