下载图片功能的特点
普通的网络爬虫不会在抓取网页的时候同时下载网页上的图片,而只是把图片地址存下来,然后用其它工具或者在另一个下载过程才去真正下载。集搜客GooSeeker网络爬虫从V5.2.0开始,将图片下载和普通网页抓取合成于一个过程。主要应用场景:
抓取商品列表的同时下载图片 除了基本的定义规则操作以外,需要告知GooSeeker爬虫,哪是要下载的图片。 上图是抓取结果文件,“图片网址”是定义规则的时候创建的抓取内容,“图片网址_bitmap”是自动生成的,也就是说是在抓取内容名字后面增加后缀_bitmap,记录图片文件名字和所在文件夹 上图是存储抓取结果的文件夹,除了有抓取结果xml文件以外,为每个结果文件还对应建立了一个文件夹,存储图片文件 抓取商品图文详情 商品图文详情中有多少图,你是预先不知道的,所以无法做样例复制映射,因为他们的存放可能是没有规律的,那样不妨用“高级设置”中的“网页片段”抓取功能,把这个网页片段抓下来。作为示例的抓取规则是儿童配饰_苏宁红孩子商品详情图文,可以下载体验。
上图是抓取结果的一个片段,可以看到把html源代码存下来了 上图是抓取结果另一个片段,请注意:抓取内容“图文详情”是用来存储抓下来的网页HTML源码片段的,抓取结果中有一个自动创建的抓取内容“图文详情_bitmap_container”,这是一个嵌套的抓取内容,因为图文详情中可能有很多图片,每个图片用一个item存储,每个item又记录两个内容:“图文详情_bitmap”和“图文详情_bitmap_src”,前者是图片文件在硬盘上的位置,后者是图片文件的网址。 文件夹结构与抓取商品列表类似,不再赘述。 修改滚屏参数 从集搜客GooSeeker网络爬虫V5.2.0开始,滚屏参数的含义做了一点调整:
注意事项 本版本(V5.2.0)用于从网页片段中下载图片时,有种情形不支持:图片不是html的img标签,而是样式中的background图片。下载此类图片的能力要在后续版本中提供,请注意版本发布公告 其他介绍 |