采集图片网址并下载图片(二)——下载途牛多图

2021-1-25 15:49| 发布者: Fuller| 查看: 8425| 评论: 0

摘要: 上篇教程讲了怎么下载途牛网上的一个大图,在此基础上,本篇教程讲怎么下载大图下面的整齐排列的小图。按前面单图下载的教程,设置采集第一个小图,然后对这些小图做样例复制,就可以把小图都采集下来。所以本篇教程 ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《采集图片网址并下载图片——以途牛旅游网为例


上篇教程讲了怎么下载途牛网上的一个大图,在此基础上,本篇教程讲怎么下载大图下面的整齐排列的小图。

注意:如果想下载某个网页区域中的所有图片,那么可以不用像这篇教程这样定义样例复制规则,而是像《采集下载指定网页区域内的所有图片》那样实现“一键下载”所有图片的效果。



按前面单图下载的教程,设置下载第一个小图,然后对第一个和第二个小图做样例复制,就可以把所有的小图都采集下来。

所以本篇教程主要的难点是对小图列表做一个局部的样例复制。

除了下载图片,本篇教程还要在网页上采集两个信息:旅游项目和价格。

1. 操作步骤

案例任务:途牛旅游多图(点击可下载)  

样本网址:https://www.tuniu.com/package/210242230 

采集内容:旅游项目、价格、图片网址,下载图片。


2. 操作步骤详解

2.1 打开网页

2.2 标注信息

2.3 勾选下载第一个小图

上面这三个步骤和单图教程一样。

2.4 对小图列表做局部的样例复制

经过前三个步骤后,工作台上的已经定义好的字段是:旅游项目,价格,小图网址(勾选了下载图片),选中小图网址,点击后面的三个点。

选择添加,上方,在小图网址的上面加一个字段。字段的名字自定义为小图列表。


现在工作台上是这样:

然后,选中小图网址,选择移动-右移,

工作台上,小图网址缩进,表示小图列表是一个整理箱,箱子里包含着小图网址。

现在,我们就可以对小图列表这个整理箱做样例复制了。

在网页上,点击第一个小图,对应到下面的DOM节点,鼠标右键这个节点,选择样例复制 - 样例1 - 小图列表


在网页上,点击第二个小图,对应到下面的DOM节点,鼠标右键这个节点,选择样例复制 - 样例2 - 小图列表

这样就对小图设置了样例复制。爬虫就会把一排所有的小图采集到。

2.5 保存任务,采集数据

参考单图教程

2.6 查看数据和图片

单图教程里,我们介绍了图片和数据分开存放的情形。如果把自动下载的存储设置成分任务存放,一个任务采集到数据和图片会放在一起。本例中,放在文件夹DataScraperWorks/途牛旅游多图,图片放在这个文件夹下的PageContentDir。


可以按教程《如何把下载的大量图片自动匹配到excel中?》,把图片导入到数据的excel表格中。



上篇文章:《采集图片网址并下载图片——单图》        下篇文章:《采集下载指定网页区域内的所有图片


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-12-4 01:41