网页pdf加载缓慢，抓取数据失败，怎么解决？

sagehxq

大家好，在用集搜客抓取数据的时候，由于我需要抓取pdf网页里的文本内容，网页pdf有好几百页，加载缓慢，打开DS打印机后，打印机显示抓取完成，但是实际上却没有抓到数据。请问应该怎么办呢？？？

Fuller · 发表于 2017-3-3 23:17:48

如果pdf内容很长，不如直接写程序解析pdf文件，pdf也是一种标准，按照这个标准解析文件就行。利用爬虫的方法爬取只是一种捷径，但是大文件处理不一定合适。

还有一种方案：把pdf文件用集搜客爬虫下载下来，而不是解析它，批量下载完成后，放在自己的一个服务器上，再用集搜客爬虫去爬，自己的服务器速度快，能加快速度。

sagehxq · 发表于 2017-3-4 08:34:20

自己的服务器？你是说邮箱吗、网盘这些的吗？谢谢你的回答。

Fuller · 发表于 2017-3-4 09:15:37

sagehxq 发表于 2017-3-4 08:34
自己的服务器？你是说邮箱吗、网盘这些的吗？谢谢你的回答。

可以自己搭建一个apache服务器，比如用wamp server，把这些pdf文档都放上，然后用爬虫爬他们。只是一个建议，最后性能提高多少，我没有测试过

sagehxq · 发表于 2017-3-4 09:35:03

谢谢

网页pdf加载缓慢，抓取数据失败，怎么解决？

共 4 个关于本帖的回复最后回复于 2017-3-4 09:35

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

网页pdf加载缓慢，抓取数据失败，怎么解决？

共 4 个关于本帖的回复 最后回复于 2017-3-4 09:35

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2017-3-4 09:35