近日接连做了多个电子商务网站上的商品信息的提取和数据挖掘解决方案,主要集中在:商品比价、竞争定价分析、销量分析等领域。近期,陆续将这些解决方案整理出来共享给读者,已经发布的解决方案有:
近日接连做了多个电子商务网站上的商品信息的提取和数据挖掘解决方案,主要集中在:商品比价、竞争定价分析、销量分析等领域。近期,陆续将这些解决方案整理出来共享给读者,已经发布的解决方案有:
下面的文字节选自多个文档,收录于此,仅仅作为认识和选择文本分类器的参考,适合程序员和数据挖掘商业应用系统设计者参考,如果想做深入的技术研究,应该查阅下文提及的参考文章。
基于统计的分类算法是主流,主要包括以下几种分类模型:
训练集的选择决定了文本分类器的性能,良好的训练集应该具有下述特征:
如果训练集中存在小类别,所谓的不均衡训练集或数据集,需要一些特殊处理,以确保分类器的性能,例如宏平均和微平均指标
宏平均(macro-average)和微平均(micro-average)是衡量文本分类器的指标。根据Coping with the News: the machine learning way
建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。
维基百科对HITS算法的定义:
Hyperlink-Induced Topic Search (HITS) (also known as Hubs and authorities) is a link analysis algorithm that rates Web pages, developed by Jon Kleinberg. It determines two values for a page: its authority(权威值、权威度), which estimates the value of the content of the page, and its hub(中心值、中心度) value, which estimates the value of its links to other pages.
Levels of measurement可以翻译成衡量尺度、计量尺度、测量尺度,维基百科对level of measurement的定义:
封闭世界假设和开放世界假设的定义(摘自维基百科词条Closed world assumption):
The closed world assumption is the presumption that what is not currently known to be true, is false. The same name also refers to a logical formalization of this assumption by Raymond Reiter. The opposite of the closed world assumption is the open world assumption, stating that lack of knowledge does not imply falsity.
购物篮指的是超级市场内供顾客购物时使用的装商品的篮子,当顾客付款时这些购物篮内的商品被营业人员通过收款机一一登记结算并记录。所谓的购物篮分析(Market Basket Analysis)就是通过这些购物篮子所显示的信息来研究顾客的购买行为。主要的目的在于找出什么样的东西应该放在一起。
交叉销售和追加销售都是销售企业或者业务员用以扩大销售额和提高利润的销售手段,虽然两者目的相同,但是是有区别的。电子商务的出现和推荐引擎的采用,使交叉销售和追加销售更加有效。