问:使用语义结构和信息提取规则定义工具MetaStudio定义信息结构的时候,可以为某个信息属性设置block提取特性,而且可以选择Image类型,是否表示将网站上的图片抓取下来?使用网页提取软件DataScraper提取符合这个信息结构的网页内容时,只发现信息提取结构文件(XML文件),没有发现图片文件,能否采集网站图片吗?
答:网页提取软件DataScraper不能将目标网站上的图片文件下载下来并保存在本地文件系统中,只能提取图片的网页地址(URL),当初设计时,将DataScraper定位于为垂直搜索采集数据,图片没必要下载,因为用采集的数据做网页时只需要使用这个原始URL即可,浏览器会从原始网站下载图片,所以,DataScraper一直保持这个特点,下一个版本(V4.x)也没有实现图片下载,主要问题是要给下载的图片赋一个本系统分配的唯一性标志,因为DataScraper不能像普通网络爬虫那样保持目标网站的目录结构不变,而是将结果格式化成XML文件,所以,需要一个唯一性标志将XML结果文件和图片文件关联起来。这个特性需要进行系统性的考虑全局的设计。
能否告诉我你想怎样使用图片,我们可以分析一下实际应用需求,帮助改进DataScraper。