新版集搜客网络爬虫图片下载功能

2018-12-22 19:15| 发布者: Fuller| 查看: 12362| 评论: 0

摘要: 集搜客GooSeeker网络爬虫从V8.11.1版本开始,对下载图片的存放位置重新进行了规划,原则如下:如果曾经运行过以前的版本,那么存放位置不变。新版本用户对存放位置有选择的自由:可以集中放在DataScraperWorks/PageI ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

1. 下载功能改版要点

集搜客GooSeeker网络爬虫从V8.11.1版本开始,对下载图片的存放位置重新进行了规划,原则如下:

新版本用户对存放位置有选择的自由

  • 可以集中放在DataScraperWorks/PageImgDir中:方便图片处理程序进行处理,不必按照主题名分别进入各个文件夹去查找是否有新图片下载下来了,只需在集中的文件夹中查找即可。
  • 也可以放在各个主题名文件夹中。

2. 老版本存放图片的目录结构

存图片的时候,一个网页对应一个文件夹,文件夹名字是:线索号_时间戳,一个网页上可能有多个图片,都放在这个文件夹。另外,还有一个tempimg,是暂存图片用的,当完全下载完以后,会移走到线索号_时间戳文件夹。

新版本有了很大改变。首先就是不再有tempimg了,直接存放在最终的文件夹中。

3. 新版本集中存放图片的目录结构

所有主题下载的图片都放在DataScraperWorks下面的PageImgDir目录中,也是一个网页对应一个文件夹。

如果要开发一个图片处理程序,就选择这种存放结构,即使要同时处理多个主题,因为他们都统一放在这里,处理程序也不必逐个进入各个主题的文件夹去拿图片。

4. 新版本分主题存放图片的目录结构

在每个主题目录中,都有一个文件夹PageImgDir,在这下面又有很多文件夹,一个文件夹对应一个网页。

5. 老用户怎样使用新功能

如果曾经运行过老版本集搜客网络爬虫,那么升级到V8.11.1后,需要设置一下,决定图片放在哪里。

DS打数机菜单 文件-》存储路径,可以看到新版本增加了“分主题存放”选项,勾上就启用了分主题存放,再次取消就启用了新版本的集中存放。

6. 分级存放结果文件的情况

如上图,存放采集结果的文件夹超过200000个文件的时候,会创建一层子目录,如下图:

老版本和新版本的集中存放不会把图片放在内存子目录中,新版本按照主题存放就会跟随采集结果文件,将图片放在所在的子目录中,在每个子目录中都会创建PageImgDir文件夹。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-12-4 01:44