配套软件版本:V9及更低 集搜客网络爬虫软件 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《用网络爬虫软件自动下载网页上的文件》 请注意:从V9.0.0开始,文件下载功能做了大幅度改进,虽然这篇教程讲解的方法依然有效,但是这个方法很难理解,应该使用V9.0.0版本的新方法,下载文件不需要定义第二个规则,只需要在第一个规则中勾上“下载内容”,并选择下载文件类型即可。也不再需要火狐浏览器插件版解决特定场景问题了。具体参看教程《用网络爬虫软件自动下载网页上的文件》1,下载功能描述1)用Gooseeker抓取网页内容的时候,如果抓取的内容是一个文件链接,通常的做法是抓取这个链接地址。 2)Gooseeker能否把链接对应的文件也自动下载下来?答案是肯定的。 2,配置文件的存储路径和处理方式 如果不配置,下载完一个文件以后,总是会询问怎样处理。这种询问将阻断爬虫的继续运行。为了关闭询问,需要做相应的配置。 2.2,火狐插件版爬虫 1)配置火狐浏览器的下载功能。火狐浏览器:工具菜单=>选项=>常规=>下载,选择“保存文件至指定文件夹”
2)配置火狐浏览器处理特定文件类型的方式。火狐浏览器:选项=>应用程序,把要下载的文件类型的“动作”改成“保存文件”。比如要下载的是pdf文件,就修改pdf文件类型的动作。 3,定义爬虫规则并运行
本案例假定需要两级规则(关于层级采集参看《采集网址做层级采集》): 第一级:采集文档列表和下载链接,假定主题名是 pdfpage999 第二级:利用下载链接下载pdf文件,假定主题名是pdf_download999 下面将讲解两级规则的定义方法。 3.1,采集文档列表和下载链接 在集搜客浏览器上加载文档列表页面,进入定义规则模式,定义一个规则用来抓文件链接的规则,规则名叫“pdfpage999”。基本的定义规则方法不再赘述,可参看《采集网页数据》,下面重点讲解跟下载文件相关的设置 1)把抓文件链接的字段勾选“下级线索” 2)在“爬虫路线里”目标主题里填写前面定义的自动下载规则名“pdf_download999” 从上面步骤可见,跟普通的层级抓取并无二致。区别在于第二级规则的定义。 3.2,定义执行下载操作的规则 新建一个专门用于自动下载的规则,规则名叫“pdf_download999”,规则内容可以是抓取任意一个简单网页上的一个字段,保存这个规则。 这一步可能不好理解。这是第二级规则,在这一级只是下载一个pdf文件,而没有特别的网页内容。所以,也找不到合适的样本页面用来做规则,所以要随便找个页面,但是总是要定义一个抓取内容,为了不影响到规则的运行,要用一个每个页面都有的内容作为抓取内容。这样在运行规则的时候,才不会出现规则不适用的提示。 例如,可以选择抓取html的header节点,甚至html节点。这样的规则的通用性是极高的,目的只是确保抓取成功,不要遇到规则不适用问题。只要规则适应了,就自动会激发下载。 3.3,运行规则 就像普通的层级采集 1,运行规则pdfpage999, 会为pdf_download999生成线索 2,运行规则pdf_download999, 集搜客网络爬虫会自动下载线索网址对应的文件,在设定好的存储文件夹里就能看到下载的文件。 |