2 8325

想学习下聚类分析

思秋忆 于 2020-2-14 18:02 发表 [复制链接]
聚类分析的具体内容是什么呢?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-2-14 18:45

lan_1985 金牌会员 发表于 2020-2-14 18:03:31 | 显示全部楼层
1、聚类分析的定义
聚类分析是一种探索性的数据分析方法,根据指标/变量的数据结构特征,对数据进行分类分类,使得类别内部的差异尽可能的小,即同质性高,类别间的差异尽可能的大,即同质性低。

举报 使用道具
lan_1985 金牌会员 发表于 2020-2-14 18:45:33 | 显示全部楼层
2、聚类分析的方法

(1)系统聚类法:既可处理分类算法变量,也可处理连续变量,但不能同时处理两种变量类型不需要指定类别数。聚类结果间存在着嵌套,或者说层次的关系。

(2)快速聚类法:针对连续变量,也可处理有序分类变量,运算很快,但需要指定类别数。这种方法不会对数据进行标准化处理,需要先自己手动分析标准分析。

(3)两步聚类法:可以同时处理分类变量和连续变量,能自动识别最佳的类别数,结果比较稳定。如果只对连续变量进行聚类,描述记录之间的距离性时可以使用欧式距离,也可以使用对数似然值,如果使用前者,则该方法和传统的聚类方法并无太大区别;但是若进行聚类的还有离散变量,那么就只能使用似然值来 记录间的差异性。当聚类指标为有序类别变量时,两步聚类法出来的分类结果就没有快速聚类的明晰,这是因为快速聚类算法假定聚类指标变量为连续变量。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-17 02:10