知识库

MySQL存储过程和函数的区别

MySQL的存储过程(stored procedure)和函数(stored function)统称为stored routines,是否应该采用存储过程在文章Business Logic: To Store or not to Store that is the Question?中进行了详细分析和讨论。存储过程和函数的区别的简要说明参见Stored procedure vs. function

举例说明什么是隐马尔科夫模型(HMM)

什么是隐马尔科夫模型(HMM)

维基百科对隐马尔可夫模型的定义:


隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

什么是启发式或探索法(heuristic)

名词解释

Heuristics,我喜欢的翻译是“探索法” ,而不是“启发式”,因为前者更亲民一些,容易被理解。另外,导致理解困难的一个原因是该词经常出现在一些本来就让人迷糊的专业领域语境中,例如,经常看到某某杀毒软件用启发式方法查毒,普通民众本来就对杀毒软件很敬畏,看到“启发式”就更摸不着北了。

实际上,这个词的解释十分简单,例如,查朗文词典,可以看到:

文本分类算法的效果

下面的文字节选自多个文档,收录于此,仅仅作为认识和选择文本分类器的参考,适合程序员和数据挖掘商业应用系统设计者参考,如果想做深入的技术研究,应该查阅下文提及的参考文章。

文本分类算法

来源:《基于关键短语的文本分类研究》

基于统计的分类算法是主流,主要包括以下几种分类模型:

文本分类训练集选择原则

训练集的选择决定了文本分类器的性能,良好的训练集应该具有下述特征:

  • 类别分布均衡
  • 每个类别中的文档都能够很好地代表该类别
  • 类别中各文档在特征空间中分布比较集中

如果训练集中存在小类别,所谓的不均衡训练集或数据集,需要一些特殊处理,以确保分类器的性能,例如宏平均和微平均指标

什么是宏平均(macro-average)和微平均(micro-average)

宏平均(macro-average)和微平均(micro-average)是衡量文本分类器的指标。根据Coping with the News: the machine learning way

决策树建立过程概述

建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。

什么是HITS算法

维基百科对HITS算法的定义:

Hyperlink-Induced Topic Search (HITS) (also known as Hubs and authorities) is a link analysis algorithm that rates Web pages, developed by Jon Kleinberg. It determines two values for a page: its authority(权威值、权威度), which estimates the value of the content of the page, and its hub(中心值、中心度) value, which estimates the value of its links to other pages.

什么是计量尺度(levels of measurement)

Levels of measurement可以翻译成衡量尺度、计量尺度、测量尺度,维基百科对level of measurement的定义:

封闭世界假设(closed world assumption)和开放世界假设

封闭世界假设和开放世界假设的定义(摘自维基百科词条Closed world assumption):

The closed world assumption is the presumption that what is not currently known to be true, is false. The same name also refers to a logical formalization of this assumption by Raymond Reiter. The opposite of the closed world assumption is the open world assumption, stating that lack of knowledge does not imply falsity.

Syndicate content