配套软件版本:V10及更高 数据管家——增强版网络爬虫 老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《用网络爬虫软件自动下载网页上的文件》 我们以这个网页为例http://www.neeq.com.cn/disclosure/announcement.html,讲解怎样自动下载网页上的文件。 如果是人工下载这些文件,需要在网页上逐个点击文件图标,启动下载。 而集搜客网络爬虫会自动采集文件的链接,同时下载文件。 本篇教程中,我们详细讲解怎样设置下载第一行的PDF文件,后面各行的PDF文件,做一个样例复制就可以了。 1. 步骤详解 案例任务:自动下载文件-教程(点击可下载) 样本网址:http://www.neeq.com.cn/disclosure/announcement.html 采集内容:代码、简称、标题、日期,下载文件。 1.1 打开网页 1.2 标注第一行要采集的内容 在第一行,除了要下载文件,我们还要采集代码,简称,标题,日期,需要对这些信息进行标注。详细的标注操作可以参考《采集网页数据》 第一次标注,要输入表名,自定义。 继续标注其它的信息,标注完成后,工作台上有了四个字段:代码,简称,标题,日期。 1.3 设置文件下载 点击第一行的文件图标,对应到DOM窗口的IMG节点,看看这个节点左侧的属性,没发现文件的链接,继续沿着这个节点向上找到A节点,点击A节点,我们发现A节点的@href属性,有文件的链接。 鼠标右键@href,做一个内容映射,文件的链接映射给一个新建内容,我们把这个新建内容命名为“文件链接”(命名是任意的),并勾选“补全网址”,“下载文件”。 现在,工作台上新添加了一个字段:文件链接 2. 样例复制 按上面的步骤,我们已经把第一行的内容和文件下载设置好了,如果还要采集后面各行,做个样例复制。具体的操作见《采集列表数据》。第一行是第一个样例,第二行是第二个样例。 3. 翻页设置 如果还要自动翻页批量采集多页的数据,可以设置翻页。具体的操作见《翻页采集数据》。 4. 测试,保存,启动采集 点击测试,看看要采集的信息,都采集下来吗,没有问题,点击保存。 然后点击采数据,启动采集。(下图非本例采集任务的图,但是操作类似)。 5. 采集到的文件保存在哪里 如果在爬虫软件里设置了分任务存放, 那么下载的文件保存在DataScraperWorks目录下的任务名文件夹下,在这个具体的例子中,是DataScraperWorks/下载文件-教程/PageContentDir。 打开PageContentDir,下载的文件存放在这里。 如果没有设置按任务保存,那么直接保存在DataScraperWorks下的PageContentDir目录下。 上篇文章:《采集下载指定网页区域内的所有图片》 下篇文章:《用网络爬虫软件自动下载网页上的文件》 |