大家好,在用集搜客抓取数据的时候,由于我需要抓取pdf网页里的文本内容,网页pdf有好几百页,加载缓慢,打开DS打印机后,打印机显示抓取完成,但是实际上却没有抓到数据。请问应该怎么办呢???
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-3-4 09:35

沙发
Fuller 管理员 发表于 2017-3-3 23:17:48 | 只看该作者
如果pdf内容很长,不如直接写程序解析pdf文件,pdf也是一种标准,按照这个标准解析文件就行。利用爬虫的方法爬取只是一种捷径,但是大文件处理不一定合适。

还有一种方案:把pdf文件用集搜客爬虫下载下来,而不是解析它,批量下载完成后,放在自己的一个服务器上,再用集搜客爬虫去爬,自己的服务器速度快,能加快速度。
举报 使用道具
板凳
sagehxq 初级会员 发表于 2017-3-4 08:34:20 | 只看该作者
自己的服务器?你是说邮箱吗、网盘这些的吗?谢谢你的回答。
举报 使用道具
地板
Fuller 管理员 发表于 2017-3-4 09:15:37 | 只看该作者
sagehxq 发表于 2017-3-4 08:34
自己的服务器?你是说邮箱吗、网盘这些的吗?谢谢你的回答。

可以自己搭建一个apache服务器,比如用wamp server,把这些pdf文档都放上,然后用爬虫爬他们。只是一个建议,最后性能提高多少,我没有测试过
举报 使用道具
5#
sagehxq 初级会员 发表于 2017-3-4 09:35:03 | 只看该作者
谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 08:50