两个多元高斯分布的KL

最新推荐文章于 2025-03-03 20:23:46 发布

原创最新推荐文章于 2025-03-03 20:23:46 发布 · 1.1k 阅读

16 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#算法 #机器学习 #人工智能

扩散模型学习专栏收录该内容

2 篇文章

订阅专栏

两个多元高斯分布的KL散度

高斯分布，是定义在 $R^n$ 上的连续型概率分布，概率密度函数为：
$p(x)=1(2π)ndet⁡(Σ)exp{−12(x−μ)TΣ−1(x−μ)}p(x)=\frac{1}{\sqrt{(2\pi)^n \det(\Sigma)}}exp\left\{ -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right\}$
这里 $x,μ∈Rnx,\mu\in R^n$ ， $Σ∈Rn×n\Sigma\in R^{n\times n}$ 是协方差矩阵,它要求是正定对称的。当 $μ=0,Σ=I\mu=0,\Sigma=I$ 时，即为标准正态分布。

正定对称：
$Σ\Sigma$ 是一个正定对称矩阵，那么：
（1）对称性： $Σ=ΣT\Sigma=\Sigma^T$
（2）正定性：对任意非零 $ξ∈Rn\xi\in R^n$ ，有 $ξTΣξ>0\xi^T\Sigma\xi >0$
正定矩阵的逆也是正定矩阵。两个正定矩阵的和也是正定矩阵。

正态分布的一些性质：

$Ex[x]=μE_x[x]=\mu$
$E_x[(x-\mu)(x-\mu)^T]=\Sigma $
$E_x[xx^T]=\mu\muT+E_x[(x-\mu)(x-\mu)^T]=\mu\muT+\Sigma $
熵：
$H=Ex[−log⁡p(x)]=n2(1+log⁡2π)+12log⁡det⁡(Σ)\mathcal{H}=E_x[-\log p(x)]=\frac{n}{2}(1+\log 2\pi)+\frac{1}{2}\log \det (\Sigma)$

KL散度

对于 $p(x)=N(μp,Σp)p(x)=\mathcal{N}(\mu_p,\Sigma_p)$ ， $q(x)=N(μq,Σq)q(x)=\mathcal{N}(\mu_q,\Sigma_q)$

计算结果：

$KL(p(x)∣∣q(x))=12[(μp−μq)TΣq−1(μp−μq)−log⁡det⁡(Σq−1Σp)+Tr(Σq−1Σp)−n]KL(p(x)||q(x))=\frac{1}{2}\left[(\mu_p-\mu_q)^T\Sigma_q^{-1}(\mu_p-\mu_q)-\log \det(\Sigma_q^{-1}\Sigma_p)+Tr(\Sigma_q^{-1}\Sigma_p)-n \right]$
特别地，当 $q$ 是标准正态分布时，结果简化为：
$KL(p(x)∣∣q(x))=12[∣∣μp∣∣2+Tr(Σp)−log⁡det⁡(Σp)−n]KL(p(x)||q(x))=\frac{1}{2}\left[||\mu_p||^2+Tr(\Sigma_p)-\log \det (\Sigma_p)-n \right]$

推导过程：

$KL(p(x)∣∣q(x))=Ex∼p(x)[log⁡p(x)q(x)]=Ex∼p(x)[log⁡p(x)]+Ex∼p(x)[−log⁡q(x)]KL(p(x)||q(x))=E_{x\sim p(x)}\left[\log\frac{p(x)}{q(x)}\right]=E_{x\sim p(x)}[\log p(x)]+E_{x\sim p(x)}[-\log q(x)]$
先计算 $Ex∼p(x)[−log⁡q(x)]E_{x\sim p(x)}[-\log q(x)]$ ：
$Ex∼p(x)[−log⁡q(x)]=Ex∼p(x)[n2log⁡(2π)+12log⁡det⁡(Σq)+12(x−μq)TΣq−1(x−μq)]=n2log⁡(2π)+12log⁡det⁡(Σq)+12Ex∼p(x)[(x−μq)TΣq−1(x−μq)]\begin{align*} E_{x\sim p(x)}[-\log q(x)]&=E_{x\sim p(x)}\left[\frac{n}{2}\log (2\pi)+\frac{1}{2}\log \det(\Sigma_q)+\frac{1}{2}(x-\mu_q)^T\Sigma_q^{-1}(x-\mu_q) \right]\\ &=\frac{n}{2}\log (2\pi)+\frac{1}{2}\log \det(\Sigma_q)+\frac{1}{2}E_{x\sim p(x)}\left[(x-\mu_q)^T\Sigma_q^{-1}(x-\mu_q) \right] \end{align*}$

Frobenius内积:
对于 $m×nm\times n$ 的矩阵 $A, B$ ，它们的 Frobenius内积被定义为：
$<A,B>F=∑i=1m∑j=1nAijBij<A,B>_F=\sum_{i=1}^m\sum_{j=1}^n A_{ij}B_{ij}$
Frobenius内积有如下性质：
$A,B>_F=Tr(A^TB)=Tr(BA^T)=Tr(AB^T)=Tr(B^TA)$

根据 Frobenius内积的性质：
$Ex∼p(x)[(x−μq)TΣq−1(x−μq)]=Ex∼p(x)[Tr((x−μq)TΣq−1(x−μq))]=Ex∼p(x)[Tr(Σq−1(x−μq)(x−μq)T)]=Tr(Σq−1Ex∼p(x)[(x−μq)(x−μq)T])=Tr(Σq−1Ex∼p(x)[xxT−xμqT−μqxT+μqμqT)=Tr(Σq−1(Σp+μpμpT−μpμqT−μqμpT+μqμqT))=Tr(Σq−1Σp)+(μp−μq)TΣq−1(μp−μq)\begin{align*} E_{x\sim p(x)}\left[(x-\mu_q)^T\Sigma_q^{-1}(x-\mu_q) \right]&=E_{x\sim p(x)}\left[Tr((x-\mu_q)^T\Sigma_q^{-1}(x-\mu_q)) \right]\\ &=E_{x\sim p(x)}\left[Tr(\Sigma_q^{-1}(x-\mu_q)(x-\mu_q)^T) \right]\\ &=Tr\left(\Sigma_q^{-1} E_{x\sim p(x)}[(x-\mu_q)(x-\mu_q)^T] \right)\\ &=Tr\left(\Sigma_q^{-1} E_{x\sim p(x)}[xx^T-x\mu_q^T-\mu_qx^T+\mu_q\mu_q^T \right)\\ &=Tr(\Sigma_q^{-1}(\Sigma_p+\mu_p\mu_p^T-\mu_p\mu_q^T-\mu_q\mu_p^T+\mu_q\mu_q^T))\\ &=Tr(\Sigma_q^{-1}\Sigma_p)+(\mu_p-\mu_q)^T\Sigma_q^{-1}(\mu_p-\mu_q) \end{align*}$
至于 $Ex∼p(x)[log⁡p(x)]E_{x\sim p(x)}[\log p(x)]$ ，即是上面提到的熵的负数。所以最终结果为：
$KL(p(x)∣∣q(x))=Ex∼p(x)[log⁡p(x)]+Ex∼p(x)[−log⁡q(x)]=[−n2(1+log⁡2π)−12log⁡det⁡(Σp)]+n2log⁡(2π)+12log⁡det⁡(Σq)+12[Tr(Σq−1Σp)+(μp−μq)TΣq−1(μp−μq)]=12[Tr(Σq−1Σp)+(μp−μq)TΣq−1(μp−μq)−n−log⁡det⁡(Σq−1Σp)]\begin{align*} KL(p(x)||q(x))&=E_{x\sim p(x)}[\log p(x)]+E_{x\sim p(x)}[-\log q(x)] \\ &=[-\frac{n}{2}(1+\log 2\pi)-\frac{1}{2}\log \det (\Sigma_p)]\\ &+\frac{n}{2}\log (2\pi)+\frac{1}{2}\log \det(\Sigma_q)+\frac{1}{2}[Tr(\Sigma_q^{-1}\Sigma_p)+(\mu_p-\mu_q)^T\Sigma_q^{-1}(\mu_p-\mu_q)]\\ &=\frac{1}{2}\left[Tr(\Sigma_q^{-1}\Sigma_p)+(\mu_p-\mu_q)^T\Sigma_q^{-1}(\mu_p-\mu_q)-n-\log\det (\Sigma_q^{-1}\Sigma_p) \right] \end{align*}$