混合高斯模型和期望最大化算法(Mixture of Gaussians and the EM algorithm)

最新推荐文章于 2026-04-01 04:48:44 发布

翻译最新推荐文章于 2026-04-01 04:48:44 发布 · 2.8k 阅读

标签

#em算法 #混合高斯模型 #密度估计 #k-means算法 #非监督式学习

machine-learning 专栏收录该内容

34 篇文章

订阅专栏

本文通过引入密度估计的概念，详细解析了期望最大化（EM）算法的工作原理及其在非监督学习中的应用。探讨了如何通过EM算法来估计混合高斯模型中的参数，并介绍了算法的E步骤和M步骤。

在这一章中，我们通过密度估计引出期望最大化算法。

在非监督式学习的情况下，给出一组训练集 $\{ x^{(1)}, \ldots, x^{(m)} \}$ ，我们试图通过指定一个联合分布 $p(x^{(i)}, z^{(i)}) = p(x^{(i)}| z^{(i)}) p(z^{(i)})$ 在数据集上建模。其中变量 $z^{(i)}$ 服从参数为 $\phi$ 的多项式分布且 $x^{(i)}| z^{(i)}$ 服从均值为 $\mu_j$ 方差为 $\sum_j$ 的高斯分布，用k表示 $z^{(i)}$ 可能取值的总数。所以我们的模型表明，每个 $x^{(i)}$ 都来自k个基于 $z^{(i)}$ 的高斯分布的其中一个。这被称为混合高斯模型。

需要注意的是 $z^{(i)}$ 是隐藏随机变量，因为它们是无法被观测的，实际是我们假设出来的。因此我们的估计会比监督式学习的情况要更加困难。组成模型的参数有 $\phi, \mu, \Sigma$ ，为了估计它们的值，我们可以写出数据的似然估计：

ℓ (ϕ, μ, Σ) = \sum i = 1 m l o g p (x (i); ϕ, μ, Σ) = \sum i = 1 m l o g \sum i = 1 k p (x (i) | z (i); μ, Σ) p (z (i); ϕ) .

$\begin{align} \ell(\phi, \mu, \Sigma) &= \sum_{i=1}^m \mathrm{log}\ p(x^{(i)}; \phi, \mu, \Sigma) \\ &= \sum_{i=1}^m \mathrm{log}\ \sum_{i=1}^k p(x^{(i)}| z^{(i)}; \mu, \Sigma)p(z^{(i)}; \phi). \\ \end{align}$

如果你对方程的各个参数求偏导，并令偏导为零联立方程组试图去解决该问题。你会发现极大似然估计在这种封闭形式下是无解的。
随机变量 $z^{(i)}$ 表示输入 $x^{(i)}$ 来自k个高斯分布中的哪一个。如果我们知道隐藏变量 $z^{(i)}$ 的值，那么这个极大似然估计问题就会变得很简单。具体而言，我们可以将似然估计改写成下面的形式：

ℓ (ϕ, μ, Σ) = \sum i = 1 m l o g p (x (i) | z (i); μ, Σ) + l o g p (z (i); ϕ) .

$\ell(\phi, \mu, \Sigma) = \sum_{i=1}^m \mathrm{log}\ p(x^{(i)}| z^{(i)}; \mu, \Sigma) + \mathrm{log}\ p(z^{(i)}; \phi).$

求极大似然估计可得：

ϕ j = 1 m \sum i = 1 m 1 {z (i) = j}, μ j = \sum m i = 1 1 { z ( i ) = j } x ( i ) \sum m i = 1 1 { z ( i ) = j }, Σ j = \sum m i = 1 1 { z ( i ) = j } ( x ( i ) - μ j ) ( x ( i ) - μ j ) T \sum m i = 1 1 { z ( i ) = j } .

$\begin{align} &\phi_j = \frac{1}{m} \sum_{i=1}^m 1\{ z^{(i)} = j \}, \\ &\mu_j = \frac{\sum_{i=1}^m 1\{ z^{(i)} = j \} x^{(i)}}{\sum_{i=1}^m 1\{ z^{(i)} = j \}}, \\ &\Sigma_j = \frac{\sum_{i=1}^m 1\{ z^{(i)} = j \} (x^{(i)} - \mu_j) (x^{(i)} - \mu_j)^T}{\sum_{i=1}^m 1\{ z^{(i)} = j \}}. \\ \end{align}$

当我们假设 $z^{(i)}$ 是已知的时候，除了 $z^{(i)}$ 代替了类标签y的作用，极大似然估计求解出的值和高斯判别分析模型的参数值几乎是一致的。然而在我们的密度估计模型中，隐藏参数 $z^{(i)}$ 实际是未知的，我们该如何解决这个问题呢？

期望最大化算法（EM算法）是一个内含两个步骤的循环算法。对于我们的问题，在E阶段，它首先猜测 $z^{(i)}$ 的值；在M阶段，根据上一步的猜测，更新模型的参数值。具体步骤如下：

循环直至收敛：{

（E步骤）循环每个 $i,j$ ，有：

w (i) j : = p (z (i) = j | x (i); ϕ, μ, Σ)

$w_j^{(i)} := p(z^{(i)} = j | x^{(i)}; \phi, \mu, \Sigma)$
（M步骤）更新模型参数：

ϕ j : = 1 m \sum i = 1 m w (i) j, μ j : = \sum m i = 1 w ( i ) j x ( i ) \sum m i = 1 w ( i ) j, Σ j : = \sum m i = 1 w ( i ) j ( x ( i ) - μ j ) ( x ( i ) - μ j ) T \sum m i = 1 w ( i ) j .

$\begin{align} &\phi_j := \frac{1}{m} \sum_{i=1}^m w_j^{(i)}, \\ &\mu_j := \frac{\sum_{i=1}^m w_j^{(i)} x^{(i)}}{\sum_{i=1}^m w_j^{(i)}}, \\ &\Sigma_j := \frac{\sum_{i=1}^m w_j^{(i)} (x^{(i)} - \mu_j) (x^{(i)} - \mu_j)^T}{\sum_{i=1}^m w_j^{(i)}}. \\ \end{align}$

}

在E阶段，通过贝叶斯公式我们求解通过 $x^{(i)}$ 等参数求解 $z^{(i)}$ 的后验概率：

p (z (i) = j | x (i); ϕ, μ, Σ) = p ( x ( i ) | z ( i ) = j ; μ , Σ ) p ( z ( i ) = j ; ϕ ) \sum k l = 1 p ( x ( i ) | z ( i ) = l ; μ , Σ ) p ( z ( i ) = l ; ϕ )

$p(z^{(i)} = j | x^{(i)}; \phi, \mu, \Sigma) = \frac{p(x^{(i)} | z^{(i)} = j; \mu, \Sigma) p(z^{(i)} = j; \phi)}{\sum_{l=1}^k p(x^{(i)} | z^{(i)} = l; \mu, \Sigma) p(z^{(i)} = l; \phi)}$

$p(x^{(i)} | z^{(i)} = j; \mu, \Sigma)$ 样本所属的高斯分布在 $x^{(i)}$ 点处的概率密度计算得出； $p(z^{(i)} = j; \phi)$ 由 $\phi_j$ 表示，E阶段中计算出的 $w_j^{(i)}$ 是对 $z^{(i)}$ 的软猜测。