文本分类语料库采集和管理系统MetaCorpora

文本分类算法已经趋于成熟,统计学和机器学习是主流的方法和理论。既然算法和算法软件已经成熟,最大的难题是快速准备高质量的训练数据集。另一方面,随着文本挖掘越来越受重视,应用的领域越来越广,文本分类需求变化多样,在企业竞争情报分析和商业市场调查和研究领域,需求多样性和易变性尤其突出,必须快速实现文本分类应用需求,才能跟得上商业发展的步伐。

我们能够时刻感受到互联网信息量的爆炸,网络上充满了极具价值的信息,其中不泛适合作为文本分类语料库的内容。然而互联网内容以HTML文档为主,即使有大量的原始素材,整理成合适的文本分类语料库需要相当的成本投入,其间的主要过程有:原始素材的提取、过滤、格式化、入库、类别标注、内容编辑和调整、格式化输出、文本编码变换等等。

应此产业需求,MetaSeeker工具包企业版进一步扩充,日前发布了文本分类语料库采集和管理系统MetaCorpora,作为企业版的增值工具软件,供应给文本挖掘企业。MetaCorpora的主要特性包括:

  • 使用DataScraper从网络上提取文本数据,存成XML格式,通过自动的Web Service接口或者人工GUI接口将提取结果文件导入数据库,可以转换成任意表格
    • 数据库根据产业应用环境不同可以选用基于Lucene的全文检索数据库或者MySQL关系数据库
    • 提取结果XML文件中的信息是树状结构,既可以将全部内容入库,又可以剪裁其中的分支入库
    • 入库指令用配置文件驱动,适合任意表格,只需修改配置
    • 关系数据库中的数据可以用各种格式导出(采用第三方软件phpMyAdmin),包括:CSV,CSV for MS Excel, Microsoft Excel 2000, Microsoft Word 2000, LaTeX, Open Document Spreadsheet, Open Document Text, PDF, SQL, XML, YAML
  • 建立文本分类语料数据库
    • 根据配置生成满足需求的各种文本分类语料数据库
    • 将DataScraper的提取结果文件导入数据库,同时进行过滤、格式化转换等操作
    • 多个语料库可以共享同一个数据库表格,也就是说使用同一个表格存储多个语料库。
  • 建设和维护文本分类语料数据库
    • 通过GUI接口,用户可以调整和编辑语料内容
    • 通过GUI接口,用户可以手工标注类别
    • 通过GUI接口,可以统计语料库的各项指标
    • 如果分类语料不均衡,可以通过GUI手工添加语料内容。如果在Firefox插件的配合下,可以直接在浏览器上选取并标注语料内容,并添加到语料库中。
  • 语料库格式化输出
    • 可以选择文本编码,例如,中文GBK、GB18030、UTF-8,因为不同的中文分词、词性标注和文本分类软件可能对文本编码有要求。
  • 语料重复内容自动剔除
  • 按指定格式输出,例如,sogou文本分类库格式