机器学习：10.聚类

原创于 2026-06-25 21:44:00 发布 · 224 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#机器学习 #聚类 #支持向量机

机器学习专栏收录该内容

12 篇文章

订阅专栏

聚类

聚类(Clustering)是一种典型的无监督学习算法，其核心目标是分割给定的无标注数据集，使得相似的数据点被分配到相同的簇(Cluster)中，而不相似的数据点被分在不同的簇中。

概念	定义说明
无监督学习	从无标注数据中学习预测模型的机器学习问题，本质是学习数据中的统计规律或内在结构。
聚类	样本分组：组内样本相似度高，组间样本相似度低。
簇心 (Centroid)	一个簇中所有样本点的中心位置。
隐变量模型	包含不可观测变量的模型，这些隐变量会影响观测数据的生成过程。

一. 无监督学习与聚类概述

1. 无监督学习的核心

在无监督学习中，我们首先学习联合分布 $P (X)$ ，然后推断条件分布 $P(xt∣X∖xt)P(x_t | X \setminus x_t)$ ，特征 $X$ 的每个维度都是被平等对待的。

参数：

$X$ (特征集合/特征向量)： 代表一个样本的所有特征。假设一个样本有 $d$ 个维度(特征)，那么 $\{x_1, x_2, \dots, x_d\}$ 。
$x_t$ (目标特征)： 代表这 $d$ 个特征中的第 $t$ 个特征(其中 $\le t \le d$ )。
$∖\setminus$ (集合减法/排除)： 在数学集合论中表示“除去”。所以 $\setminus x_t$ 的意思是：整体特征集合 $X$ 中，除去了第 $t$ 个特征之后，剩下的所有其他特征的集合。

整句公式的含义：在已知除了第 $t$ 个特征以外的所有其他特征的情况下，第 $t$ 个特征取某个具体值的条件概率。

有监督 vs 无监督：
有监督学习直接学习条件分布 $P(xt∣X∖xt)P(x_t | X \setminus x_t)$ ，其中 $x_t$ 是要预测的显式标签。而无监督学习处理的是完全没有标签的数据，需要机器自己去发现数据内在的结构(如聚类、降维、关联规则)。

2. 聚类的基本目标

(1) 相似的点在相同的簇中。
(2) 不相似的点被分在不同的簇中。

二. K-Means 算法

K-Means 是一种基于距离和相似度关联簇的经典划分聚类算法。

1. 算法输入与输出

输入： 数据集 $D = \{x_i\}_{i=1}^N$ ，所需簇的数量 $k$ (N代表数据集中总共有多少个样本)。
输出： 每个簇的簇心 $μ1,…,μk\mu_1, \dots, \mu_k$ ，以及每个样本所属的簇划分( $μj\mu_j$ ： 特指第 $j$ 个簇的中心点，也叫簇心)。

2. 质心 (Centroid)

质心就是一个簇的中心位置，通常取该簇所有点在各个维度上的均值。

例如，点 $(1, 2), (2, 3), (3, 4)$ 的质心为：

$(1+2+33,2+3+43)=(2,3)\left( \frac{1+2+3}{3} , \frac{2+3+4}{3} \right) = (2, 3)$

3. 距离度量

最常用的距离度量方式是欧氏距离(直线距离)。

二维平面中 A、B 两点的距离：

$\sqrt{(A_x - B_x)^2 + (A_y - B_y)^2}$

当维度扩展到 n 维时：

$\sqrt{\sum_{i=1}^{n} (A_i - B_i)^2}$

即： $L2(xi,μj)=∣∣xi−μj∣∣2=∑k=1d(xi,k−μj,k)2L_2(x_i, \mu_j) = ||x_i - \mu_j||_2 = \sqrt{\sum_{k=1}^d (x_{i,k} - \mu_{j,k})^2}$

4. 簇内相似度

K-Means 追求的是：同一个簇中的样本尽可能彼此接近，并且尽量靠近该簇的质心。

通常通过簇内平方和SSE来衡量：

$\sum_{i=1}^{K} \sum_{x \in C_i} ||x - \mu_i||^2$

$C_i$ 表示第 $i$ 个簇， $μi\mu_i$ 表示第 $i$ 个簇的质心。
$\mu_i||^2$ 表示样本点到质心的平方距离。
SSE 越小，说明簇内样本越紧凑，聚类效果通常越好。

5. K-Means的迭代流程

K-Means 的核心就是不断循环：选中心 $→\rightarrow$ 分簇 $→\rightarrow$ 更新中心 $→\rightarrow$ 再分簇 $→\rightarrow$ 直到稳定。

初始化质心：预先指定 K，随机选取 K 个初始中心点。
分配样本：计算每个样本到各质心的距离，划分到距离最近的簇中。
更新质心：根据当前簇中的所有样本，重新计算该簇的中心点(均值)。
重复迭代：重新分配样本并更新质心，不断循环。
收敛停止：当质心位置不再变化、样本归属不再改变，或达到最大迭代次数时停止。

6. 算法的最优性与局限

优化 1：初始质心选择 (K-Means++)

随机选择初始质心可能导致算法陷入较差的局部最优解。不同的初始化方式，最终得到的聚类结果可能存在明显差异。

解决方案：K-Means++

先随机选取一个样本点作为第一个质心；之后，在选择下一个质心时，优先考虑那些距离当前已有质心较远的样本点。重复这一过程，直到选出 K 个初始质心。
优化 2：肘部法则选择 K 值

K-Means 最大的问题是簇数 K 需要预先指定。如何找到性价比最优的 K 值？
- 依次尝试不同的 K 值，计算对应的 SSE。
- 随着 K 增大，SSE 会持续下降。
- 当 K 超过某个值后，SSE 下降幅度明显减小，曲线趋于平缓。
- 这个斜率突然减小、曲线由陡转平的拐点(肘部)，就是较优的 K 值选择。

输入样本集： $\{x_1, x_2, \cdots, x_m\}$ ，共 $m$ 个样本。
特征维度：每个样本 $x_i$ 是一个 $n$ 维特征向量。
簇的数量： $k$ 个簇。
簇划分指示： $C_i$ 表示第 $i$ 个样本 $x_i$ 当前被指定的簇标签。
簇中心： $μj\mu_j$ 表示第 $j$ 个簇的中心（ $\in \{1, 2, \dots, k\}$ ）。

K-Means 算法标准聚类过程

若用 K-Means 算法进行聚类，其完整且规范的算法迭代过程如下：

1. 初始化 (Initialization)

从数据集 $X$ 中随机选取 $k$ 个样本作为初始的簇中心，记为 $,μk\mu_1, \mu_2, \cdots, \mu_k$ 。

2. 迭代过程 (Iteration)

重复以下两个步骤，直到满足终止条件：

步骤 A (簇分配/计算 $C_i$ )：

遍历每一个样本 $x_i$ ( $\dots, m$ )，计算其到所有簇中心 $μj\mu_j$ 的距离（通常使用欧氏距离）。将其分配给距离最近的簇中心所在的簇，即更新所属簇标签 $C_i$ ：

$Ci=arg⁡min⁡j∈{1,…,k}∣∣xi−μj∣∣2C_i = \arg\min_{j \in \{1, \dots, k\}} || x_i - \mu_j ||^2$

步骤 B (更新簇中心 $μj\mu_j$ )：

对于每一个簇 $j$ ( $\dots, k$ )，重新计算被分配到该簇的所有样本的均值，并以此均值作为新的簇中心 $μj\mu_j$ ：

$μj=1∣Nj∣∑xi∈Njxi\mu_j = \frac{1}{|N_j|} \sum_{x_i \in N_j} x_i$

(其中 $N_j$ 表示当前属于簇 $j$ 的所有样本的集合， $N_j|$ 为该集合中的样本数量)

3. 终止条件 (Termination)

当所有的簇分配标签 $C_i$ 不再发生变化，或者所有的簇中心 $μj\mu_j$ 停止移动（或者达到预设的最大迭代次数）时，算法收敛并结束。

三. 高斯混合聚类与 EM 算法

1. 高斯混合模型 (GMM)

高斯混合模型是一种概率聚类模型，它以概率的形式描述样本类别标签 $P (z ∣ x)$ 。

假设： 样本的生成过程由 $k$ 个高斯分布的混合给出，具体来自哪个分布由一个隐变量 $z$ 决定。高斯混合模型假设所有数据样本都是由 $k$ 个多元高斯分布组合混合生成的。其概率密度函数(混合分布)定义为这 $k$ 个高斯分布的加权平均：
高斯混合分布公式： $pM(x)=∑i=1kαi⋅p(x∣μi,Σi)p_{\mathcal{M}}(x) = \sum_{i=1}^k \alpha_i \cdot p(x | \mu_i, \Sigma_i)$

参数说明：
- $k$ ：混合的高斯成分个数（即簇数）。
- $αj\alpha_j$ ：第 $j$ 个高斯成分的混合系数（先验概率），满足 $αj>0\alpha_j > 0$ 且 $∑j=1kαj=1\sum_{j=1}^k \alpha_j = 1$ 。
- $N(x∣μj,Σj)\mathcal{N}(x | \mu_j, \Sigma_j)$ ：第 $j$ 个高斯分布的概率密度函数，其中 $μj\mu_j$ 是均值向量， $Σj\Sigma_j$ 是协方差矩阵。
  协方差矩阵永远是一个对称矩阵 (Symmetric Matrix)。沿着主对角线对折，两边完全一样： $σxy\sigma_{xy}$ 永远等于 $σyx\sigma_{yx}$ 。
  - 计算 X 和 Y 的协方差：
    
    $\sigma_{xy} = \frac{1}{m} \sum_{i=1}^{m} (x^{(i)} - \mu_x)(y^{(i)} - \mu_y)$
  - 计算 Y 和 X 的协方差：
    
    $\sigma_{yx} = \frac{1}{m} \sum_{i=1}^{m} (y^{(i)} - \mu_y)(x^{(i)} - \mu_x)$

2. EM 算法

由于存在未知的隐变量 $z$ (即我们不知道每个样本具体由哪个高斯分布产生)，直接显式找到最大似然估计(MLE)非常困难，因此我们引入 EM算法。

EM算法是一种常用的估计带隐变量模型参数的迭代求解利器：

E-Step (期望步)： 在给定当前模型参数下，推断隐变量的期望(后验分布)。即计算样本 $x_j$ 由第 $i$ 个高斯成分生成的后验概率 $γji\gamma_{ji}$ 。
M-Step (最大化步)： 调整参数，使得在给定隐变量后验分布下，最大化对数似然函数。即利用 $γji\gamma_{ji}$ 更新 $αi,μi,Σi\alpha_i, \mu_i, \Sigma_i$ 。

EM 算法的几何收敛性：
通过琴生不等式，E-Step 实际上是在构造对数似然函数的一个良好的下界，而 M-Step 则是在直接优化(最大化)这个下界。
数学上可以严格证明，EM算法每次连续迭代的参数都会使得对数似然值单调递增： $l(θ(t))≤l(θ(t+1))l(\theta^{(t)}) \le l(\theta^{(t+1)})$ 。

3. GMM 与 K-Means 的联系

K-Means 可以看作是高斯混合聚类的一种极端特例：
如果我们将 GMM 中的协方差矩阵强行固定为 $Σ=σ2I\Sigma = \sigma^2 I$ ，那么当方差趋于零 ( $σ2→0\sigma^2 \to 0$ ) 时，高斯混合聚类和 K-Means 算法的聚类效果是完全等价的。

输入样本集： $\{x_1, x_2, \cdots, x_m\}$ ，共 $m$ 个样本。
特征维度：每个样本 $x_i$ 是一个 $n$ 维特征向量。
簇的数量： $k$ 个簇。
簇划分指示： $C_i$ 表示第 $i$ 个样本 $x_i$ 当前被指定的簇标签。
簇中心： $μj\mu_j$ 表示第 $j$ 个簇的中心（ $\in \{1, 2, \dots, k\}$ ）。

EM 算法在 GMM 聚类中的标准运行过程

在 GMM 中，由于我们不知道每个样本具体由哪一个高斯成分生成（存在隐变量），因此必须使用 EM 算法来迭代求解参数 $(αj,μj,Σj)(\alpha_j, \mu_j, \Sigma_j)$ 。

算法流程如下：

① 初始化 (Initialization)

随机初始化 $k$ 个高斯分布的参数：混合系数 $αj\alpha_j$ 、均值向量 $μj\mu_j$ 和协方差矩阵 $Σj\Sigma_j$ ( $\cdots, k$ )。

② E-Step (期望步 / Expectation)

在当前模型参数已知的条件下，计算每个样本 $x_i$ 由第 $j$ 个高斯成分生成的后验概率（也被称为“责任度” Responsibility），记为 $γij\gamma_{ij}$ ：

$γij=αj⋅N(xi∣μj,Σj)∑l=1kαl⋅N(xi∣μl,Σl)\gamma_{ij} = \frac{\alpha_j \cdot \mathcal{N}(x_i | \mu_j, \Sigma_j)}{\sum_{l=1}^k \alpha_l \cdot \mathcal{N}(x_i | \mu_l, \Sigma_l)}$

(通俗解释：计算样本 $x_i$ 有多大的概率是属于第 $j$ 个簇的。这是软聚类，每个样本按概率归属于所有的簇)

③ M-Step (最大化步 / Maximization)

利用 E-Step 计算出的后验概率 $γij\gamma_{ij}$ ，最大化似然函数的下界，从而更新所有的模型参数。对每个高斯成分 $j$ ，按如下公式更新：

计算该簇的“有效样本总数”： $Nj=∑i=1mγijN_j = \sum_{i=1}^m \gamma_{ij}$

更新均值向量：

$μjnew=1Nj∑i=1mγijxi\mu_j^{new} = \frac{1}{N_j} \sum_{i=1}^m \gamma_{ij} x_i$

更新协方差矩阵：

$Σjnew=1Nj∑i=1mγij(xi−μjnew)(xi−μjnew)T\Sigma_j^{new} = \frac{1}{N_j} \sum_{i=1}^m \gamma_{ij} (x_i - \mu_j^{new})(x_i - \mu_j^{new})^T$

更新混合系数：

$αjnew=Njm\alpha_j^{new} = \frac{N_j}{m}$

④ 终止评估

重复执行 E-Step 和 M-Step。每次迭代后计算当前的对数似然函数值 $ln⁡P(X)\ln P(X)$ ，如果对数似然函数的增长幅度小于某个极小的阈值 $ϵ\epsilon$ （即对数似然函数收敛），或者参数不再发生明显变化，则算法终止；否则返回步骤 ② 继续迭代。

四. 基于密度的聚类：DBSCAN

基于距离的算法(如K-Means)通常只能发现球状簇，难以处理任意形状的簇。DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 通过“密度”这一概念完美解决了这一问题。

1. 核心概念

DBSCAN 的运作依赖于两个关键参数：扫描半径 $ϵ\epsilon$ 和 最小包含点数 $M in P t s$ 。

概念	定义与说明
$ϵ\epsilon$ -邻域	以某个样本点为中心，半径为 $ϵ\epsilon$ 的区域内包含的所有样本点的集合。
核心对象	若一个样本点的 $ϵ\epsilon$ -邻域内至少包含 $M in P t s$ 个样本，则称该点为核心对象。
密度直达	若点 $x_j$ 位于点 $x_i$ 的 $ϵ\epsilon$ -邻域中，且 $x_i$ 是核心对象，则称 $x_j$ 由 $x_i$ 密度直达。(不满足对称性)
密度可达	若存在一条样本链 $p1…pnp_1 \dots p_n$ ，且 $p_{i+1}$ 由 $p_i$ 密度直达，则链两端的点密度可达。(满足传递性)
密度相连	存在核心对象 $x_k$ ，使得 $x_i$ 和 $x_j$ 均由 $x_k$ 密度可达，则称 $x_i$ 与 $x_j$ 密度相连。(满足对称性)