配套软件版本:V10及更高 数据管家——增强版网络爬虫 老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《采集图片网址并下载图片——以途牛旅游网为例》 集搜客数据管家,可以很快捷地把网页上某块区域的图片或者视频全部都抓取下来,保存在本地。而不用像《采集图片网址并下载图片(二)——下载途牛多图》介绍的定义样例复制规则采集下载有规律的图片。 比如,京东搜索“T恤”后,得到的一个列表页。可以抓取整个列表区域内所有的图片。 我们以此为例来讲解操作过程。视频抓取的操作是一样的。 案例任务:所有的图(点击可下载) 样本网址:https://search.jd.com/Search?keyword=t%E6%A1%96&enc=utf-8&suggest=1.def.0.base&wq=txue&pvid=604cc4d250ad43828165f439a2e7d907 采集内容:列表区域内所有的图 1. 下载安装集搜客数据管家 2. 加载网页,进入任务定义模式 在数据管家打开要采集的网页,网页加载出来,点击左侧边栏“+”号,进入任务定义模式。 3. 设置下载图片 在这个列表区域内任意点击一个图或者文字,会对应到下面的DOM窗口的一个节点,沿着这个节点往上找,直至有个节点能使整个T恤列表区域被选中,然后鼠标右击当前节点,做内容映射。 还需要输入数据表的名字和字段的名字。(这些名字是随意取的,但是最好有实际意义)。 在左侧的工作台上,点击字段“列表顶层”的设置 勾上下载图片,确定。 4. 保存任务和采集数据 点击测试,看看会不会报错,若没有报错,保存任务。然后点击“采数据”按钮,启动采集。 5. 查看图片 采集下来的图片一般保存在电脑的DataScraperWorks目录下的PageContentDir目录。
6. 设置翻页采集多页图片 如果需要采集多页图片,可按教程《翻页设置》,在步骤3后,加上翻页设置,然后按步骤4,保存任务,采集数据。 注意,要爬一块区域的所有图片,一般需要滚屏,要在数据管家设置里,把滚屏打开。 上篇文章:《采集图片网址并下载图片--下载途牛多图》 下篇文章:《用网络爬虫软件自动下载网页上的文件》 |