k均值聚类算法(The k-means clustering algorithm)

最新推荐文章于 2026-04-01 14:49:46 发布

翻译最新推荐文章于 2026-04-01 14:49:46 发布 · 2.4k 阅读

标签

#clustering #聚类算法 #k-means算法 #失真函数 #非监督式学习

machine-learning 专栏收录该内容

34 篇文章

订阅专栏

本文介绍了K-means聚类算法的基本概念与实现步骤。包括质心初始化、样本点分配及质心更新等核心环节，并解释了算法如何通过迭代逐步减少失真函数达到收敛状态。此外还探讨了算法可能存在的局部最优问题及其解决方法。

在聚类问题中，我们试图将给定的样本集 $\{ x^{(1)}, \ldots, x^{(m)} \}$ 分割成几个各自汇聚的聚类。这类问题中输入特征同之前一样是一个n维向量 $x^{(i)} \in \Bbb{R}^n$ ，但输出标签 $y^{(i)}$ 是不存在的，因此这是一个非监督式学习问题。

k-means 聚类算法的执行步骤如下：

随机初始化k个聚类质心的坐标值 $\mu_1, \mu_2, \ldots, \mu_k \in \Bbb{R}^n$ ；
循环直至收敛：{

循环每个 $i$ ，有：

$c (i) : = a r g min j ∥ x (i) - μ j ∥ 2 .$ $c^{(i)} := arg\ \min_j \Vert x^{(i)} - \mu_j \Vert^2.$
循环每个 $j$ ，有：
$μ j : = \sum m i = 1 1 { c ( i ) = j } x ( i ) \sum m i = 1 1 { c ( i ) = j } .$ $\mu_j := \frac{\sum_{i=1}^m 1\{ c^{(i)} = j \} x^{(i)}}{\sum_{i=1}^m 1\{ c^{(i)} = j \}}.$
}

上面的算法中，k代表我们猜测的聚类数量，聚类质心 $\mu_j$ 代表我们当前假设的聚类质心坐标。初始化质心坐标时，我们可随机选取k个样本点，让k个质心的坐标等于这k个样本点（当然还有其他初始化质心的方法）。

算法的内循环重复执行两个步骤：(1) 将样本点 $x^{(i)}$ 分配给距离它欧式距离最近的质心；(2) 将每个聚类质心坐标向其所辖样本点的均值点移动。

下图是一个k-means 算法运行的图示。
illustration of running k-means

上图：点表示训练样本，叉叉表示聚类质心。(a) 原始数据集。 (b)随机初始化聚类质心（在此例中，没有让初始质心等于某一样本值）(c-f) k-means算法迭代的图解。

k均值算法可以保证一定会收敛吗？答案是yes。为了便于理解，我们定义失真函数(distortion function)：

J (c, μ) = \sum i = 1 m ∥ x (i) - μ c (i) ∥ 2

$J(c,\mu) = \sum_{i=1}^m \Vert x^{(i)} - \mu_{c^{(i)}} \Vert^2$

失真函数描述了每个样本点 $x^{(i)}$ 到其所属质心 $\mu_{c^{(i)}}$ 距离的平方和。k-means算法实际就是最小化失真函数 $J$ 的坐标下降法。
究其本质，算法的内层循环，先固定质心坐标 $\mu$ ，求 $J$ 关于质心分配 $c$ 的最小化；然后固定质心分配 $c$ ，求 $J$ 关于质心坐标 $\mu$ 的最小化。算法运行中 $J$ 一定的单调下降的，它的值也必将收敛（单调有界必收敛）。