网页提取软件DataScraper能否抓取目标网站上的图片？

问：使用语义结构和信息提取规则定义工具MetaStudio定义信息结构的时候，可以为某个信息属性设置block提取特性，而且可以选择Image类型，是否表示将网站上的图片抓取下来？使用网页提取软件DataScraper提取符合这个信息结构的网页内容时，只发现信息提取结构文件（XML文件），没有发现图片文件，能否采集网站图片吗？

答：网页提取软件DataScraper不能将目标网站上的图片文件下载下来并保存在本地文件系统中，只能提取图片的网页地址（URL），当初设计时，将DataScraper定位于为垂直搜索采集数据，图片没必要下载，因为用采集的数据做网页时只需要使用这个原始URL即可，浏览器会从原始网站下载图片，所以，DataScraper一直保持这个特点，下一个版本(V4.x)也没有实现图片下载，主要问题是要给下载的图片赋一个本系统分配的唯一性标志，因为DataScraper不能像普通网络爬虫那样保持目标网站的目录结构不变，而是将结果格式化成XML文件，所以，需要一个唯一性标志将XML结果文件和图片文件关联起来。这个特性需要进行系统性的考虑全局的设计。

能否告诉我你想怎样使用图片，我们可以分析一下实际应用需求，帮助改进DataScraper。

GooSeeker

网页提取软件DataScraper能否抓取目标网站上的图片？

切换语言