Tag Archives: K-Means

【数据挖掘】综合篇——聚类分析

聚类分析

  1. 聚类理论
  2. 案例分析(讲了三个模型:系统聚类K均值聚类高斯混合模型的聚类
  3. 案例效果评价(也给出了FCM模糊C均值聚类,以及自组织特征映射网络的聚类)评价这里主要是通过绘制图像的方法给出评价的,最后的聚类数与聚类效果(类相似度)的图像很赞!
  4. 总结

Continue reading

【模式识别】第二章——聚类分析

聚类分析

上节课我们提到了一些方法,本节课我们主要讲聚类分析中典型的算法。本节课包涵下面几个内容:

  1. 聚类分析的相关概念
  2. 模式相似性的测度和聚类准则
  3. 基于试探的聚类搜索算法(最近邻,最大最小距离法)
  4. 系统聚类法
  5. 动态聚类法(K-均值,ISODATA)
  6. 聚类结果的评价

Ps:课程取自GUCAS的模式识别课程(2009年)课堂笔记。某些地方可能拍照不清楚,看算法后面的例子更容易理解。

Continue reading

【MachineLearning】Clustering——Choosing the Number of Clusters

本节我们将会详细讨论一下K均值聚类方法中的类别数目选择,或者说是如何选择参数K的值。说实话,没有一个特别好的方法来回答这个问题,或者能够自动做这件事情。到目前为止,选择数目最常用的方法仍然是通过可视化的图或者通过查看聚类算法的输出结果或者其他一些东西,手动地决定聚类的类别数量。但是,我也确实经常被问及这样的问题(你是如何选择聚类的数量的)。我只是想告诉你,现在人们所思考的最为常见的一件事实际上是手动去选择聚类的数目。

“肘部法则”(Elbow Method)只是一种尝试的方法(因为通常很难看出肘点)。我认为更好的方式是思考如何去选择聚类,基于运行K均值聚类的目的(或者后面的目的或者步骤,later purpose)决定。 Continue reading

【MachineLearning】Clustering——Optimization Objective

之前我们看到的大多数学习算法,例如线性回归,logistic回归等。这些算法都有一个优化对象(Optimization Objective),或者有一个可以来最小化的某个代价函数。本节课程中,我将会告诉你什么是优化对象(Optimization Objective),我们这么做的目的有两个。(本节完了还是对c(i),μ以及μc(k)这三个参数不是特别清楚)。

  • 第一:知道什么是K-means的Optimization Objective。将帮助我们对算法进行debug,确定K-means算法是否运行正确;
  • 第二(也是最重要的):我们怎么使用K-means方法来去找到更好的簇,避免局部最优,但是我们在之后的课程中讲到(如何避免局部最优)。

Continue reading

【MachineLearning】Clustering——K-means algorithm

在聚类问题中,我们有未加标签的数据,我们希望有一个算法,能够自动地把这些数据分成有紧密关系的子集或者簇。K均值(K-means)算法,是现在最为广泛使用的聚类方法,在这节课中,我将会告诉你什么是K均值算法,以及它是怎么运作的,以及规范化的描述方法(伪代码)。 Continue reading