采集图片网址并下载图片——以途牛旅游网为例

2016-10-20 17:16| 发布者: ym| 查看: 36502| 评论: 11

摘要: 一、操作步骤 集搜客爬虫不仅能抓到网页上的文本、网址数据,还可以批量下载图片到电脑中。无论是列表页还是详情页上的图片,只要能获取图片网址都可以用集搜客爬虫来下载图片。下面就以途牛网的自助游网页为案例, ...

配套软件版本:V9及更低 集搜客网络爬虫软件

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《采集图片网址并下载图片

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、操作步骤

集搜客爬虫不仅能抓到网页上的文本、网址数据,还可以批量下载图片到电脑中。无论是列表页还是详情页上的图片,只要能获取图片网址都可以用集搜客爬虫来下载图片。下面就以途牛网的自助游网页为案例,介绍一下如何用集搜客来自动下载图片。操作步骤如下:

注意事项:从爬虫软件V9.0.0开始,图片下载后的存储位置有了很大改变,但是定义规则过程不变,请注意看第五步里面的说明和相应的链接。


二、案例规则+操作步骤

如果纯粹采集图片,就不知道图片来源于哪里,所以,我们通常会把网页上的文本信息“旅游名称”“价格”也采集下来,最后可以用excel把它们匹配起来。文章《采集网页数据》已经详细讲过前两步操作了,下面就从第三步操作开始讲。


第三步:采集图片网址

3.1, 点击小图可以定位到它的IMG节点。我们不直接采集大图,因为大图是由小图放大的,并且只显示一张,也就只能抓到一张大图,但是小图可以全部抓到,最后用excel处理就能变成大图,所以,类似这种网页的情况抓小图就容易多了。

3.2,再双击展开IMG,就会在attributes下面找到@src,它就是存储图片网址的节点

3.3,右击@src,选择内容映射->新建抓取内容,再输入标签名“小图网址”


3.4,选中“小图网址”,打勾下载图片

注意:映射@src节点给标签“小图网址”后,只需打勾下载内容->下载图片,不要勾高级设置->抓取特定内容->网页片段和图片网址,否则输出的图片网址就是错误的,无法下载到图片。


第四步:样例复制

4.1, 在工作台上右击“小图网址”,选择添加->其前,在它的前面添加一个新标签“列”。然后,再右击“小图网址”,选择移动-> 右移,这样,“列”包容了"小图网址"。 其中,标签“列”只是用来做样例复制的。因为网页上的旅游名称、价格信息只有一条,而小图是多张,所以,要局部对小图做样例复制。 


4.2,在工作台上选中“列”,在网页上点击第一个小图,对应到下面的DOM节点,右击这个节点,选择样例复制映射->第一个。点击第二个小图,对应到下面的DOM节点,右击这个节点,选择样例复制映射-> 第二个。这样就对小图做了样例复制。关于样例复制可以看文章《采集列表数据》来掌握。


第五步:存规则,爬数据

5.1,点击测试,只抓到第一张小图网址,其他的都抓空了,说明数据规则需要微调一下。通常调整定位,选择绝对定位就可以解决。


5.2,点击存规则、爬数据,采集成功后会在本地DataScraperWorks文件夹中生成xml文件和存储图片的文件夹。结果文件存储位置说明参考《查看数据文件》。图片文件存储位置说明参看《集搜客网络爬虫图片下载功能


5.3,最后把xml文件和图片导入到excel中进行匹配,可以调整图片大小,操作见文章《如何把下载的大量图片自动匹配到excel中?》


上篇文章:《定位标志采集列表数据》                                            下篇文章:《xml文件结构怎么看》


若有疑问可以集搜客爬虫软件
7

鲜花

握手

雷人

路过
1

鸡蛋

刚表态过的朋友 (8 人)

相关阅读

发表评论

最新评论

评论 Fuller 2020-3-12 11:22
wddd123456: 如果只需要获取完整的图片地址的话,怎么操作?
以前还有只存图片网址的功能,现在只能连图片也存下来了。就是多费一些硬盘空间,不影响采集速度
评论 wddd123456 2020-3-12 11:13
如果只需要获取完整的图片地址的话,怎么操作?
评论 wangyong 2019-5-17 16:59
1124547621: 各位大哥大姐好,我想批量下载图片的同时抓取对应的名称字段来匹配对应的图片名称,并且下载下来的图片都保存到一个文件夹上,文件夹的命名也想自定义设置,请问 ...
图片名称和图片的关联关系是都保留在xml里了,要实现你说的功能需要二次开发,如果需要可以发起定制服务,QQ号:2019907223
评论 1124547621 2019-5-17 16:53
各位大哥大姐好,我想批量下载图片的同时抓取对应的名称字段来匹配对应的图片名称,并且下载下来的图片都保存到一个文件夹上,文件夹的命名也想自定义设置,请问你们会不会实现啊
评论 1124547621 2019-5-17 16:53
各位大哥大姐好,我想批量下载图片的同时抓取对应的名称字段来匹配对应的图片名称,并且下载下来的图片都保存到一个文件夹上,文件夹的命名也想自定义设置,请问你们会不会实现啊
评论 umsung 2017-9-19 17:39
猴小睿: 想咨询一下,为什么在同一个京东搜索结果的列表下,有些商品IMG路径里面可以找图片所在的src,有些根本就没有src,导致无法下载到图片,这是什么原因呢 ...
1,抓取图片的时候滚屏速度调慢一点,很有可能是因为滚屏太快,有些图片还没显示出来就滚过去了,所以没抓到。
2,如果是有网站没有src属性,那就是网站的问题了
评论 猴小睿 2017-9-19 17:35
想咨询一下,为什么在同一个京东搜索结果的列表下,有些商品IMG路径里面可以找图片所在的src,有些根本就没有src,导致无法下载到图片,这是什么原因呢
评论 Fuller 2017-1-16 20:43
晴时有风阴有时雨: 这次又遇到问题了,在谋数台制作规则测试的时候,小图网址都显示出来了,但是在保存规则爬数据后,发现爬到的数据xml里面没有小图网址,而且图片也没有下载到, ...
你没有打开DS打数机的滚屏,或者滚屏次数太少,图片多的网页,不会预先加载图片的,img的src属性一开始是一个无效的值,只有滚屏到它的位置上,才替换src,开始加载图片。如果没有滚屏,采集不到真实的src值
评论 晴时有风阴有时雨 2017-1-16 16:56
这次又遇到问题了,在谋数台制作规则测试的时候,小图网址都显示出来了,但是在保存规则爬数据后,发现爬到的数据xml里面没有小图网址,而且图片也没有下载到,这是什么原因呢?
评论 Fuller 2016-12-25 20:17
晴时有风阴有时雨: 我按照本文给的方法做了  但是在测试的时候 一直提示 :映射给两个样例的应该是具有相同父节点的兄弟节点  可是不知道自己哪里和原文不一样了 ,能给一下解答吗 ...
在教程首页有搜索功能,搜索这个提示就行“映射给两个样例的应该是具有相同父节点的兄弟节点”
评论 晴时有风阴有时雨 2016-12-25 19:14
我按照本文给的方法做了  但是在测试的时候 一直提示 :映射给两个样例的应该是具有相同父节点的兄弟节点  可是不知道自己哪里和原文不一样了 ,能给一下解答吗

查看全部评论(11)

GMT+8, 2024-11-21 17:00