信息提取

什么是HITS算法

维基百科对HITS算法的定义:

Hyperlink-Induced Topic Search (HITS) (also known as Hubs and authorities) is a link analysis algorithm that rates Web pages, developed by Jon Kleinberg. It determines two values for a page: its authority(权威值、权威度), which estimates the value of the content of the page, and its hub(中心值、中心度) value, which estimates the value of its links to other pages.

什么是计量尺度(levels of measurement)

Levels of measurement可以翻译成衡量尺度、计量尺度、测量尺度,维基百科对level of measurement的定义:

封闭世界假设(closed world assumption)和开放世界假设

封闭世界假设和开放世界假设的定义(摘自维基百科词条Closed world assumption):

The closed world assumption is the presumption that what is not currently known to be true, is false. The same name also refers to a logical formalization of this assumption by Raymond Reiter. The opposite of the closed world assumption is the open world assumption, stating that lack of knowledge does not imply falsity.

什么是购物篮分析(Market Basket Analysis)

购物篮指的是超级市场内供顾客购物时使用的装商品的篮子,当顾客付款时这些购物篮内的商品被营业人员通过收款机一一登记结算并记录。所谓的购物篮分析(Market Basket Analysis)就是通过这些购物篮子所显示的信息来研究顾客的购买行为。主要的目的在于找出什么样的东西应该放在一起。

电子商务中的交叉销售(cross-selling)和追加销售(up-selling)

交叉销售和追加销售都是销售企业或者业务员用以扩大销售额和提高利润的销售手段,虽然两者目的相同,但是是有区别的。电子商务的出现和推荐引擎的采用,使交叉销售和追加销售更加有效。

什么是过度拟合(overfitting)

overfitting的定义


维基百科对过拟合(overfitting)的定义:

什么是回归分析(Regression Analysis)

回归分析的定义

维基百科对回归分析的定义:

回归分析(Regression Analysis)是一种统计学上对数据进行分析的方法,主要是希望探讨数据之间是否有一种特定关系。回归分析是建立因变量Y(或称依变量、原文为:response variables, dependent variables)与自变量X(或称独变量,原文为predictors, independent variables)之间关系的模型。

什么是决策树(decision tree)

决策树(decision tree)这个概念主要出现在两个领域:决策分析(Decision Analysis)和机器学习(Machine Learning),在机器学习领域,也叫Decision Tree Learning。


决策树的定义

维基百科对决策树的定义:

什么是贪婪算法(Greedy Algorithm)

Greedy Algorithm翻译成贪婪算法、贪婪法,有的称其为貪婪演算法。

维基百科对贪婪算法的解释:

什么是数据挖掘最重要的要素

摘自深入浅出谈数据挖掘

承接数据挖掘和常规数据分析的区别一文的案例,如果某运营商需要建立一个模型来筛选一部分目前还没有用彩铃的用户作为推广彩铃业务的目标用户,那么这样一个任务要取得成功的关键要素是什么呢?是分析人员的思维模式、分析采用的方法、相关业务知识还是分析采用的工具?

Syndicate content