采集下载指定网页区域内的所有图片

2021-4-19 18:45| 发布者: Fuller| 查看: 34164| 评论: 0

摘要: 集搜客数据管家,可以很快捷地把网页上某块区域的图片或者视频全部都抓取下来,保存在本地。比如,京东搜索“T恤”后,得到的一个列表页。可以抓取整个列表区域内所有的图片。我们以此为例来讲解操作过程。视频抓取 ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《采集图片网址并下载图片——以途牛旅游网为例


集搜客数据管家,可以很快捷地把网页上某块区域的图片或者视频全部都抓取下来,保存在本地。而不用像《采集图片网址并下载图片(二)——下载途牛多图》介绍的定义样例复制规则采集下载有规律的图片。

比如,京东搜索“T恤”后,得到的一个列表页。可以抓取整个列表区域内所有的图片。

我们以此为例来讲解操作过程。视频抓取的操作是一样的。


案例任务:所有的图(点击可下载)  

样本网址:https://search.jd.com/Search?keyword=t%E6%A1%96&enc=utf-8&suggest=1.def.0.base&wq=txue&pvid=604cc4d250ad43828165f439a2e7d907

采集内容:列表区域内所有的图


1. 下载安装集搜客数据管家

2. 加载网页,进入任务定义模式

在数据管家打开要采集的网页,网页加载出来,点击左侧边栏“+”号,进入任务定义模式。


3. 设置下载图片

在这个列表区域内任意点击一个图或者文字,会对应到下面的DOM窗口的一个节点,沿着这个节点往上找,直至有个节点能使整个T恤列表区域被选中,然后鼠标右击当前节点,做内容映射。



还需要输入数据表的名字和字段的名字。(这些名字是随意取的,但是最好有实际意义)。


在左侧的工作台上,点击字段“列表顶层”的设置


勾上下载图片,确定。


4. 保存任务和采集数据

点击测试,看看会不会报错,若没有报错,保存任务。然后点击“采数据”按钮,启动采集。


5. 查看图片

采集下来的图片一般保存在电脑的DataScraperWorks目录下的PageContentDir目录。


我们一共采集了111个图片。


6. 设置翻页采集多页图片

如果需要采集多页图片,可按教程《翻页设置》,在步骤3后,加上翻页设置,然后按步骤4,保存任务,采集数据。


注意,要爬一块区域的所有图片,一般需要滚屏,要在数据管家设置里,把滚屏打开。

上篇文章:《采集图片网址并下载图片--下载途牛多图》     下篇文章:《用网络爬虫软件自动下载网页上的文件

1

鲜花

握手
1

雷人

路过
1

鸡蛋

刚表态过的朋友 (3 人)

最新评论

GMT+8, 2024-3-29 23:49