Blogs

什么是决策树(decision tree)

决策树(decision tree)这个概念主要出现在两个领域:决策分析(Decision Analysis)和机器学习(Machine Learning),在机器学习领域,也叫Decision Tree Learning。


决策树的定义

维基百科对决策树的定义:

什么是贪婪算法(Greedy Algorithm)

Greedy Algorithm翻译成贪婪算法、贪婪法,有的称其为貪婪演算法。

维基百科对贪婪算法的解释:

什么是数据挖掘最重要的要素

摘自深入浅出谈数据挖掘

承接数据挖掘和常规数据分析的区别一文的案例,如果某运营商需要建立一个模型来筛选一部分目前还没有用彩铃的用户作为推广彩铃业务的目标用户,那么这样一个任务要取得成功的关键要素是什么呢?是分析人员的思维模式、分析采用的方法、相关业务知识还是分析采用的工具?

数据挖掘和常规数据分析的区别

摘自深入浅出谈数据挖掘

一般来说,比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在于:

  • 数据挖掘主要侧重解决四类问题:分类聚类关联预测
  • 而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计交叉报表假设检验等。

让我们来看两个例子对比:

参照MPQA思考怎样实现观点挖掘系统(opinion mining)

MPQA是一个语料库和观点识别系统(Corpus and Opinion Recogntion System)。根据其网页,该系统有下面几部分:

什么是词性标注(POS tagging)

词性标注也叫词类标注,POS tagging是part-of-speech tagging的缩写。

维基百科对POS Tagging的定义:

有关情感分析和观点挖掘的几个概念

  • 情感和主观观点分类(sentiment and subjectivity classification):情感分析(sentiment analysis)就是一个文本分类(text classification)问题,主要有两个级别:
    • 文档级别的分类:含有主观观点的文章表达的是正面的还是负面的观点(positive or negative opinion),有个专用名词表示这一类sentiment classification或者document-level sentiment classification
    • 句子级别的分类:主要目的
      • 句子表述的意思是主观的还是客观的,表示这一类的专用名词:subjectivity cl

传统零售商圈地在线电子商城

下面的内容摘自[1],可以作为市场分析的素材。


待回答的问题

以收取进店费、促销费用以及供应商返点为主要盈利手段的传统零售商,如何驾驭这块全新的市场?

什么是sentiment analysis(情感分析)?

Sentiment analysis(情感分析) or opinion mining(观点挖掘)的目的是判断作者或者演讲者对某个话题(topic)的态度(attitude),所述态度包括:

  • 判断
  • 评价
  • 情绪状况
  • 情绪交流等等

互联网进入Web2.0时代后,网络上大量涌现网友创作的内容(user-generated content),因此对这些内容进行情感分析或者观点挖掘具有巨大价值。下面的内容摘自维基百科

Syndicate content