配套软件版本:V10及更高 数据管家——增强版网络爬虫 老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《采集图片网址并下载图片——以途牛旅游网为例》 集搜客爬虫不仅能抓到网页上的文本、链接,还可以批量下载图片。无论是列表页还是详情页上的图片,只要能获取图片网址,都可以下载。 本篇教程以途牛网的自助游网页为案例,介绍如何用集搜客来自动下载一张图片。下一篇教程介绍如何下载大图下面整齐排列的小图。 除了下载图片,本篇教程还要在网页上采集两个信息:旅游项目和价格。 1. 操作步骤 案例任务:途牛旅游单图(点击可下载) 样本网址:https://www.tuniu.com/package/210242230 采集内容:旅游项目、价格、图片网址,下载图片。 2. 操作步骤详解 2.1 打开网页 2.2 标注信息 标记旅游项目和价格。双击要标注的信息,输入字段名。首次标注,还要输入表名。如果要详细了解标注操作,可以参考《采集网页数据》。 2.3 勾选下载图片 在网页上点击大图,下面的DOM窗口自动对应到IMG节点。在DOM窗口的左边,查看网页元素窗口,看到IMG的@src属性,它的值就是图片网址。 然后用鼠标右击@src,选择内容映射-新建内容, 给新建内容起个名字,本例中,起名”大图网址“。 并勾选下载图片。 而且,我们注意到@src中的图片网址没有http,属于不完全网址,要勾选补全网址,爬数据的时候,会自动补全。 采集图片网址和下载图片设置完成。 2.4 保存任务,采集数据 先测试一下任务,看看信息是否能采集到。 测试成功,保存任务,采集数据。 2.5 查看数据和图片 采集完成后,按采集窗口的提示,去下载数据。 图片和数据是分开存放的。图片存放在哪里? 图片存放在电脑DataScraperWorks目录下的PageContentDir文件夹 |
发誓学好内容分析: 下载天气网上的江苏苏州的天气图总是超时,我发了一个贴:<a href="https://www.gooseeker.com/doc/thread-18534-1-1.html" target="_blank">https://www.gooseeker.com/doc/thread-18534-1-1.html</a> 。请楼主帮忙看看原因 ...