网络上很多研究报告、行业规范、公司年报都是pdf文件。能不能用GooSeeker网络爬虫软件抓取pdf中的内容?

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-6-23 11:52

沙发
Fuller 管理员 发表于 2021-6-23 11:50:46 | 只看该作者
GooSeeker网络爬虫软件升级到V10版本以后就增加了解析pdf文件的功能,只是在V10.8.0之前,没有全面采用解析pdf功能,但是V10.8.0及其以后,就全面采用了。

以前,只是在摘录pdf内容的时候,才将pdf解析成html,一旦解析成html,那么就可以定义采集规则。到了V10.8.0版本,都可以定义采集规则。比如,下面是一个操作案例,假设要采集的pdf文件是磁盘上的文件,那么先打开文件,如果是网页上的,那就跟采集普通网页一样。

1,打开pdf文件
使用工具条上的打开文件按钮,打开pdf文件


2,开启定义规则
像给普通网页定义规则一样,点击右上角+号按钮,开启定义规则,可以看到pdf内容都解析成了html节点,做直观标注内容映射,跟普通网页的操作方法一样。


3,注意事项
可以看到,一篇pdf文档解析成了大量的html节点,可能一句话被切成了好几个节点。如果要采集的pdf文件内容稍微不太规整,定义出来的采集规则就会适应不了。很多情况下,不如直接使用数据管家的摘录功能
举报 使用道具
板凳
发誓学好内容分析 金牌会员 发表于 2021-6-23 11:51:34 | 只看该作者
Fuller 发表于 2021-6-23 11:50
GooSeeker网络爬虫软件升级到V10版本以后就增加了解析pdf文件的功能,只是在V10.8.0之前,没有全面采用解析 ...

我看官网上下载的版本是V10.7.1,什么时候才有V10.8.0发布?
举报 使用道具
地板
Fuller 管理员 发表于 2021-6-23 11:52:18 | 只看该作者
发誓学好内容分析 发表于 2021-6-23 11:51
我看官网上下载的版本是V10.7.1,什么时候才有V10.8.0发布?

原计划定于本周(6月25日),现在还在做发布前的系统测试
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 17:24