注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 1. 下载功能改版要点 集搜客GooSeeker网络爬虫从V8.11.1版本开始,对下载图片的存放位置重新进行了规划,原则如下: 新版本用户对存放位置有选择的自由
2. 老版本存放图片的目录结构 存图片的时候,一个网页对应一个文件夹,文件夹名字是:线索号_时间戳,一个网页上可能有多个图片,都放在这个文件夹。另外,还有一个tempimg,是暂存图片用的,当完全下载完以后,会移走到线索号_时间戳文件夹。 新版本有了很大改变。首先就是不再有tempimg了,直接存放在最终的文件夹中。 3. 新版本集中存放图片的目录结构 所有主题下载的图片都放在DataScraperWorks下面的PageImgDir目录中,也是一个网页对应一个文件夹。 如果要开发一个图片处理程序,就选择这种存放结构,即使要同时处理多个主题,因为他们都统一放在这里,处理程序也不必逐个进入各个主题的文件夹去拿图片。 4. 新版本分主题存放图片的目录结构 在每个主题目录中,都有一个文件夹PageImgDir,在这下面又有很多文件夹,一个文件夹对应一个网页。 5. 老用户怎样使用新功能 如果曾经运行过老版本集搜客网络爬虫,那么升级到V8.11.1后,需要设置一下,决定图片放在哪里。 DS打数机菜单 文件-》存储路径,可以看到新版本增加了“分主题存放”选项,勾上就启用了分主题存放,再次取消就启用了新版本的集中存放。 6. 分级存放结果文件的情况 如上图,存放采集结果的文件夹超过200000个文件的时候,会创建一层子目录,如下图: 老版本和新版本的集中存放不会把图片放在内存子目录中,新版本按照主题存放就会跟随采集结果文件,将图片放在所在的子目录中,在每个子目录中都会创建PageImgDir文件夹。 |