信息提取

文本分类算法的效果

下面的文字节选自多个文档,收录于此,仅仅作为认识和选择文本分类器的参考,适合程序员和数据挖掘商业应用系统设计者参考,如果想做深入的技术研究,应该查阅下文提及的参考文章。

文本分类算法

来源:《基于关键短语的文本分类研究》

基于统计的分类算法是主流,主要包括以下几种分类模型:

文本分类训练集选择原则

训练集的选择决定了文本分类器的性能,良好的训练集应该具有下述特征:

  • 类别分布均衡
  • 每个类别中的文档都能够很好地代表该类别
  • 类别中各文档在特征空间中分布比较集中

如果训练集中存在小类别,所谓的不均衡训练集或数据集,需要一些特殊处理,以确保分类器的性能,例如宏平均和微平均指标

什么是宏平均(macro-average)和微平均(micro-average)

宏平均(macro-average)和微平均(micro-average)是衡量文本分类器的指标。根据Coping with the News: the machine learning way

什么是Twitter注释

Twitter注释的新功能可以将任何元数据(metadata)附着于Twitter消息。目前,每条长度限制为140个字符的Twitter 消息里都可以填写任何内容,包括大量的信息、外部网站链接等。不过,Twitter计划借助元数据来使内容更加丰富。

Web自动化和信息提取工具iMacros介绍

海外的iMacros for Firefox也是Firefox插件,这一点同国产的MetaSeeker一样,比较iMacros V6.6.5.0和MetaSeeker V4.11.0,发现诸多重合的功能特性,例如,Web信息提取功能。

XML/HTML字符转义在Web文档抓取工具中的应用

Web文档抓取工具包MetaSeeker能够自动生成抓取规则,帮助用户大批量自动抓取Web文档,MetaSeeker核心数据存储和交换格式是XML,例如,信息结构元数据、Web文档抓取指令文件、抓取结果文件等等。

增强AJAX网络数据抽取能力

随着网络数据抽取软件工具包MetaSeeker的版本不断更新,AJAX数据抽取能力不断增强,本文讲解的技巧适合MetaSeeker V4.11.0及其以后版本。主要解决的问题是:假设当前网页P1上面有超链接,点击后网页内容修改,但是没有通过HTTP加载一个HTML网页文档,而是通过AJAX的异步通信机制,例如,采用XMLHttpRequest类接口,从服务器下载内容并局部更改网页内容。此时显示的网页数据的语义同P1网页的不同,我们称此网页为P2。

一种半自动抓取AJAX文档数据的方法

网络文档抓取工具包MetaSeeker具有很强的AJAX文档数据抓取能力,由于AJAX网站设计并无定式,可发挥空间很大,所以,MetaSeeker抓取AJAX文档的能力再强也不可能宣称适用所有AJAX情况,所以,GooSeeker采取逐步加强的策略,每个新版本都增加一些AJAX情形。

MetaSeeker发展到V4.10.0版本,不能抓取的AJAX文档有下面两大情形:

解决翻页提取Web数据中断问题

主题demo_comment_list_dangdang的翻页操作用javascript代码实现的,Web数据提取软件工具包MetaSeeker能够模拟用户点击行为,执行翻页操作,这是利用网页URL提取Web数据的普通网络爬虫和提取软件无法做到的。

决策树建立过程概述

建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。

Syndicate content