快捷导航

用集搜客实现自动下载批量文件

2015-11-19 16:47| 发布者: ym| 查看: 6655| 评论: 5

摘要: 功能描述 1)用Gooseeker抓取网页内容的时候,如果抓取的内容是一个文件链接,通常的做法是抓取这个链接地址。 2)Gooseeker能否把链接对应的文件也自动下载下来?答案是肯定的。 自动下载文件步骤 1、配置火狐浏览 ...

下载功能描述

1)用Gooseeker抓取网页内容的时候,如果抓取的内容是一个文件链接,通常的做法是抓取这个链接地址。

2)Gooseeker能否把链接对应的文件也自动下载下来?答案是肯定的。

自动下载文件步骤

1、配置火狐浏览器的下载功能。火狐浏览器:工具菜单=>选项=>常规=>下载,选择“保存文件至指定文件夹”



2、配置火狐浏览器处理特定文件类型的方式。火狐浏览器:选项=>应用程序,把要下载的文件类型的“动作”改成“保存文件”。比如要下载的是pdf文件,就修改pdf文件类型的动作。


3、新建一个专门用于自动下载的规则,规则名随意,比如叫“pdf_download999”,规则内容可以是抓取任意一个简单网页上的一个字段,保存这个规则。

4、新建另一个用来抓文件链接的规则,例如规则名叫“pdfpage999”,并且需要自动下载,则:

1)把抓文件链接的字段勾选“下级线索”

2)在“爬虫路线里”目标主题里填写前面定义的自动下载规则名“pdf_download999”

5、运行规则pdfpage999, 会为pdf_download999生成线索

6、运行规则pdf_download999, 火狐会自动下载线索网址对应的文件,在设定好的存储文件夹里就能看到下载的文件。


若有疑问可以集搜客网络爬虫
3

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

相关阅读

发表评论

最新评论

评论 wangyong 2016-11-29 10:25
有正事的小青年: 附件的名字是不是也会保存在xml里?再由xml转换成的excel中也能体现出这个附件的名字?要不然怎么知道附件是哪篇文章里的呢。 ...
把附件的名字抓做上抓取内容抓下来
评论 有正事的小青年 2016-11-29 10:12
附件的名字是不是也会保存在xml里?再由xml转换成的excel中也能体现出这个附件的名字?要不然怎么知道附件是哪篇文章里的呢。
评论 wangyong 2016-7-27 17:08
Luodan: 请问下如果是批量下载excle文档应该如何设置呢?
下EXCEL和PDF理论上都一样,先做规则然后再火狐里设置EXCEL为自动下载模式
评论 HJLing 2016-7-27 17:05
Luodan: 请问下如果是批量下载excle文档应该如何设置呢?
excel有独立的链接吗 如果有的话 也是同样设置 只是这里设置的是pdf默认为下载 你设置excel默认下载就可以了
评论 Luodan 2016-7-27 15:39
请问下如果是批量下载excle文档应该如何设置呢?

查看全部评论(5)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-22 22:22