配套软件版本:V10及更高 数据管家——增强版网络爬虫 老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《采集图片网址并下载图片——以途牛旅游网为例》 上篇教程讲了怎么下载途牛网上的一个大图,在此基础上,本篇教程讲怎么下载大图下面的整齐排列的小图。 注意:如果想下载某个网页区域中的所有图片,那么可以不用像这篇教程这样定义样例复制规则,而是像《采集下载指定网页区域内的所有图片》那样实现“一键下载”所有图片的效果。 按前面单图下载的教程,设置下载第一个小图,然后对第一个和第二个小图做样例复制,就可以把所有的小图都采集下来。 所以本篇教程主要的难点是对小图列表做一个局部的样例复制。 除了下载图片,本篇教程还要在网页上采集两个信息:旅游项目和价格。 1. 操作步骤 案例任务:途牛旅游多图(点击可下载) 样本网址:https://www.tuniu.com/package/210242230 采集内容:旅游项目、价格、图片网址,下载图片。 2. 操作步骤详解 2.1 打开网页 2.2 标注信息 2.3 勾选下载第一个小图 上面这三个步骤和单图教程一样。 2.4 对小图列表做局部的样例复制 经过前三个步骤后,工作台上的已经定义好的字段是:旅游项目,价格,小图网址(勾选了下载图片),选中小图网址,点击后面的三个点。 选择添加,上方,在小图网址的上面加一个字段。字段的名字自定义为小图列表。 现在工作台上是这样: 然后,选中小图网址,选择移动-右移, 工作台上,小图网址缩进,表示小图列表是一个整理箱,箱子里包含着小图网址。 现在,我们就可以对小图列表这个整理箱做样例复制了。 在网页上,点击第一个小图,对应到下面的DOM节点,鼠标右键这个节点,选择样例复制 - 样例1 - 小图列表 在网页上,点击第二个小图,对应到下面的DOM节点,鼠标右键这个节点,选择样例复制 - 样例2 - 小图列表 这样就对小图设置了样例复制。爬虫就会把一排所有的小图采集到。 2.5 保存任务,采集数据 参考单图教程 2.6 查看数据和图片 在单图教程里,我们介绍了图片和数据分开存放的情形。如果把自动下载的存储设置成分任务存放,一个任务采集到数据和图片会放在一起。本例中,放在文件夹DataScraperWorks/途牛旅游多图,图片放在这个文件夹下的PageContentDir。 可以按教程《如何把下载的大量图片自动匹配到excel中?》,把图片导入到数据的excel表格中。 上篇文章:《采集图片网址并下载图片——单图》 下篇文章:《采集下载指定网页区域内的所有图片》 |