技术内幕

数据提取指令文件

数据提取指令文件也称为MAP文件,实际上是一个XSLT指令文件,能够将目标页面的结构进行转换,从中提取需要的数据,并将结果数据结构序列化成XML文件,即信息提取(网页抓取/抽取)结果文件

信息提取(网页抓取/抽取)指令文件总览

信息提取(网页抓取/抽取)指令文件是一组文件,由MetaStudio生成,每组文件对应一个信息结构,这组文件由DataScraper用来提取Web页面上的信息,因此,每组文件可以看做是一个HTML wrapper(包装器)。我们将详细讲述下面这些文件的内容结构。

信息结构描述文件

信息结构描述文件是使用MetaStudio描述Web页面信息结构的产物,存储在MetaCamp服务器上。同时MetaStudio依据该信息结构计算生成Web页面信息提取(网页抓取/抽取)指令文件,即HTML Wrapper(包装器)。

Syndicate content