快捷导航

用集搜客实现自动下载批量文件

2015-11-19 16:47| 发布者: ym| 查看: 10556| 评论: 5

摘要: 功能描述 1)用Gooseeker抓取网页内容的时候,如果抓取的内容是一个文件链接,通常的做法是抓取这个链接地址。 2)Gooseeker能否把链接对应的文件也自动下载下来?答案是肯定的。 自动下载文件步骤 1、配置火狐浏览 ...

1,下载功能描述

1)用Gooseeker抓取网页内容的时候,如果抓取的内容是一个文件链接,通常的做法是抓取这个链接地址。

2)Gooseeker能否把链接对应的文件也自动下载下来?答案是肯定的。

2,配置文件的存储路径和处理方式

      如果不配置,下载完一个文件以后,总是会询问怎样处理。这种询问将阻断爬虫的继续运行。为了关闭询问,需要做相应的配置。 

2.1,集搜客浏览器

      集搜客浏览器有自己的配置,如下图

点击图示的配置按钮,进入到如下窗口中

在Mime页签下,有多种文件类型的设置按钮,点击他们就能设置成不提示文件处理方法。

2.2,火狐插件版爬虫

1)配置火狐浏览器的下载功能。火狐浏览器:工具菜单=>选项=>常规=>下载,选择“保存文件至指定文件夹”



2)配置火狐浏览器处理特定文件类型的方式。火狐浏览器:选项=>应用程序,把要下载的文件类型的“动作”改成“保存文件”。比如要下载的是pdf文件,就修改pdf文件类型的动作。


3,定义爬虫规则并运行

1,新建一个专门用于自动下载的规则,规则名随意,比如叫“pdf_download999”,规则内容可以是抓取任意一个简单网页上的一个字段,保存这个规则。

这一步可能不好理解。这是第二级规则,在这一级可能只是下载一个pdf文件,而没有特别的网页内容。所以,也找不到合适的样本页面用来做规则,所以要随便找个页面,但是总是要定义一个抓取内容,为了不影响到规则的运行,要用一个每个页面都有的内容作为抓取内容。这样在运行规则的时候,才不会出现规则不适用的提示。

例如,可以选择抓取html的header节点,甚至html节点。

2,新建另一个用来抓文件链接的规则,例如规则名叫“pdfpage999”,并且需要自动下载,则:

1)把抓文件链接的字段勾选“下级线索”

2)在“爬虫路线里”目标主题里填写前面定义的自动下载规则名“pdf_download999”

3,运行规则pdfpage999, 会为pdf_download999生成线索

4,运行规则pdf_download999, 火狐会自动下载线索网址对应的文件,在设定好的存储文件夹里就能看到下载的文件。


若有疑问可以集搜客网络爬虫
3

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

相关阅读

发表评论

最新评论

评论 wangyong 2016-11-29 10:25
有正事的小青年: 附件的名字是不是也会保存在xml里?再由xml转换成的excel中也能体现出这个附件的名字?要不然怎么知道附件是哪篇文章里的呢。 ...
把附件的名字抓做上抓取内容抓下来
评论 有正事的小青年 2016-11-29 10:12
附件的名字是不是也会保存在xml里?再由xml转换成的excel中也能体现出这个附件的名字?要不然怎么知道附件是哪篇文章里的呢。
评论 wangyong 2016-7-27 17:08
Luodan: 请问下如果是批量下载excle文档应该如何设置呢?
下EXCEL和PDF理论上都一样,先做规则然后再火狐里设置EXCEL为自动下载模式
评论 HJLing 2016-7-27 17:05
Luodan: 请问下如果是批量下载excle文档应该如何设置呢?
excel有独立的链接吗 如果有的话 也是同样设置 只是这里设置的是pdf默认为下载 你设置excel默认下载就可以了
评论 Luodan 2016-7-27 15:39
请问下如果是批量下载excle文档应该如何设置呢?

查看全部评论(5)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-10-18 07:39