怎样将网络采集结果导入数据库

网络采集工具软件包MetaSeeker将采集结果存成XML格式,采用XML格式有两大好处:1,可以表述复杂的语义结构,树状结构比二维表的表述能力强;2,XML标签即语义元数据,数据及其元数据在一起,便于转换成各种其它格式。但是,很多用户会问:怎样将XML格式的网络采集结果存入关系数据库或者存成Excel表格?先前MetaSeeker工具包不提供这种转换功能。日前MetaSeeker工具包发布了MetaCorpora,提供灵活的数据库导入和其它格式转换能力。

MetaCorpora绝大部分功能是关于文本分类语料库管理的,数据库导入仅仅是其基本功能。导入数据库并格式化成其它格式的操作包括如下步骤:

  1. 配置数据导入关系,即描述XML中某个字段与数据库中哪个表的哪个字段对应
    • 同一个XML结果文件中的内容可以导入多个不同的表
    • 既可以将整个XML树导入数据库,也可以将某个分支导入数据库
  2. 通过Web Service接口DataScraper能够自动将采集结果发送给MetaCorpora,也可以通过GUI接口,用户手工上载结果文件。
  3. 采用多种数据格式导出数据库中的内容,采用第三方软件phpMyAdmin,可以导出的格式包括:CSV,CSV for MS Excel, Microsoft Excel 2000, Microsoft Word 2000, LaTeX, Open Document Spreadsheet, Open Document Text, PDF, SQL, XML, YAML