数据挖掘

监控电子商务网站商品价格解决方案

近日接连做了多个电子商务网站上的商品信息的提取和数据挖掘解决方案,主要集中在:商品比价、竞争定价分析、销量分析等领域。近期,陆续将这些解决方案整理出来共享给读者,已经发布的解决方案有:

文本分类算法的效果

下面的文字节选自多个文档,收录于此,仅仅作为认识和选择文本分类器的参考,适合程序员和数据挖掘商业应用系统设计者参考,如果想做深入的技术研究,应该查阅下文提及的参考文章。

文本分类算法

来源:《基于关键短语的文本分类研究》

基于统计的分类算法是主流,主要包括以下几种分类模型:

文本分类训练集选择原则

训练集的选择决定了文本分类器的性能,良好的训练集应该具有下述特征:

  • 类别分布均衡
  • 每个类别中的文档都能够很好地代表该类别
  • 类别中各文档在特征空间中分布比较集中

如果训练集中存在小类别,所谓的不均衡训练集或数据集,需要一些特殊处理,以确保分类器的性能,例如宏平均和微平均指标

什么是宏平均(macro-average)和微平均(micro-average)

宏平均(macro-average)和微平均(micro-average)是衡量文本分类器的指标。根据Coping with the News: the machine learning way

决策树建立过程概述

建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。

什么是HITS算法

维基百科对HITS算法的定义:

Hyperlink-Induced Topic Search (HITS) (also known as Hubs and authorities) is a link analysis algorithm that rates Web pages, developed by Jon Kleinberg. It determines two values for a page: its authority(权威值、权威度), which estimates the value of the content of the page, and its hub(中心值、中心度) value, which estimates the value of its links to other pages.

什么是计量尺度(levels of measurement)

Levels of measurement可以翻译成衡量尺度、计量尺度、测量尺度,维基百科对level of measurement的定义:

封闭世界假设(closed world assumption)和开放世界假设

封闭世界假设和开放世界假设的定义(摘自维基百科词条Closed world assumption):

The closed world assumption is the presumption that what is not currently known to be true, is false. The same name also refers to a logical formalization of this assumption by Raymond Reiter. The opposite of the closed world assumption is the open world assumption, stating that lack of knowledge does not imply falsity.

什么是购物篮分析(Market Basket Analysis)

购物篮指的是超级市场内供顾客购物时使用的装商品的篮子,当顾客付款时这些购物篮内的商品被营业人员通过收款机一一登记结算并记录。所谓的购物篮分析(Market Basket Analysis)就是通过这些购物篮子所显示的信息来研究顾客的购买行为。主要的目的在于找出什么样的东西应该放在一起。

电子商务中的交叉销售(cross-selling)和追加销售(up-selling)

交叉销售和追加销售都是销售企业或者业务员用以扩大销售额和提高利润的销售手段,虽然两者目的相同,但是是有区别的。电子商务的出现和推荐引擎的采用,使交叉销售和追加销售更加有效。

Syndicate content