28-高斯网络

最新推荐文章于 2025-04-12 16:26:05 发布

原创最新推荐文章于 2025-04-12 16:26:05 发布 · 2.3k 阅读

10 ·

本内容遵循CC 4.0 BY-SA版权协议

pytorch 专栏收录该内容

148 篇文章

订阅专栏

本文详细介绍了高斯网络，包括高斯马尔可夫随机场（GMN）和高斯贝叶斯网络（GBN）。通过概率图模型，探讨了高斯分布在网络中的应用，阐述了节点间独立性和条件独立性的表示。重点讨论了高斯无向图与多维高斯分布的关系，并通过解析多维高斯概率密度，揭示了其与无向图因子分解的对应性。此外，还提到了卡曼滤波作为特殊类型的高斯贝叶斯网络，展示了其链式结构的本质。

1.高斯网络总体介绍

1.1 背景

高斯网络英文名为"Gaussian-network",也叫高斯图模型，概率图模型PGM(Probability Graphic Model)可以根据隐变量是离散还是连续进行分类；也可以根据概率图是有向图还是无向图进行分类。具体分类如下：如果概率图中的每一个节点都是离散型的变量，那么就有贝叶斯网络BN(Bayesian Network)和马尔可夫随机场MN(Markov Random Field)；如果概率图中每个节点都是一维的连续型随机变量，那么就有高斯贝叶斯网络GBN(Gaussian Bayesian Network)和高斯马尔可夫随机场GMN(Gaussian Markov Random Field)。

分类图解如下：

1.2 高斯马尔可夫随机场

现在我们举例一个高斯网络，假设每个节点都是一维的连续型随机变量，假设每个结点都服从高斯分布 $X_i \sim N(\mu_i,\Sigma_i)$ ,用随机变量 X 表示列向量， $X=(x_1,x_2,...,x_p)^T$ ,那么 X 就是一个高维的高斯分布，其概率密度函数如下：

联合高斯分布的概率密度
$P(X)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp\{-\frac{1}{2}(X-\mu)^T\Sigma^{-1}(X-\mu)\}\tag{1}$
高斯无向图网络图：
小结：
$一个高斯无向图网络就等效于高维的高斯分布$

那么我们可以把一个高斯无向图的研究映射导高维的高斯分布上去研究。而对于高维高斯分布来说，我们看重的是其分布对应的均值 ( $\mu$ ) 和 ( $\Sigma$ ) 协方差；而我们用协方差来表示单个变量之间的关系，其表示如下：
$\Sigma=(\sigma_{ij})=\begin{pmatrix} \sigma_{11}&\sigma_{12}&...&\sigma_{1p}\\\sigma_{21}&\sigma_{22}&...&\sigma_{2p}\\\vdots&\vdots&\vdots&\vdots\\\sigma_{p1}&\sigma_{p2}&...&\sigma_{pp}\end{pmatrix}_{p \times p} \tag{1}$
$X_i ⊥ X_j \iff \sigma_{ij}\tag{2}$

注：由上式可以得出， $\sigma_{ij}$ 能够表示结点在全局的独立性，但这个不是我们想要的，我们更希望得到的节点的条件独立性，而为了表示高斯图模型中的条件独立性，我们引入了精度矩阵的变量，也叫信息矩阵。具体表示如下：
$\Lambda=\Sigma^{-1}=\begin{pmatrix} \lambda_{11}&\lambda_{12}&...&\lambda_{1p}\\\lambda_{21}&\lambda_{22}&...&\lambda_{2p}\\\vdots&\vdots&\vdots&\vdots\\\lambda_{p1}&\lambda_{p2}&...&\lambda_{pp}\end{pmatrix}_{p \times p}\tag{3}$
注：当 $\lambda_{ij}=0,可得出结论：x_i ⊥ x_j |-\{x_i,x_j\}$ ,这样我们就可以用精度矩阵的参数 $\lambda_{ij}$ 来表示条件概率；这样我们就可以用一个精度矩阵来表示概率图里面的相关独立性关系，这个真的太神奇了。

那我们来想想，如果没有条件独立性假设，那么每一个节点都与其他节点来连接，那么就势必导致计算量巨大，所以在某种程度上，条件独立性假设会使得计算简化。

1.3 小结

经过上述分析，我们可以把一个高斯网络和高维的高斯分布进行联合起来，用协方差矩阵来表示节点之间的全局独立性，用精度矩阵来表示节点之间的条件独立性，这样可以一一对应起来。就相当于初中几何里面的解析几何和图形几何的关系，用数学的方式解决图形问题。

2.高斯贝叶斯网络

2.1 背景

高斯网络一般就指的是连续性的概率图模型PGM，而这次我们介绍的是有向的高斯网络，全称"高斯贝叶斯网络"，英文名"Gaussian Bayesian Network",

2.2 贝叶斯网络图

在这里插入图片描述
我们定义每个节点都是连续型随机变量，且每个节点都是满足高斯分布的， $X_i \sim N(\mu_i,\Sigma_i)$ ,根据有向图贝叶斯网络的因子分解可得，对于每个节点的概率P(X)如下：
$P(X)=\prod_{i=1}^P P(X_i|X_{pa(x)})\tag{4}$

$X_{pa(x)}:$ 指的是节点 $X_i$ 的父节点集合。

这里有句话可总结如下：
$\underbrace{GBN}_{Global}-is-based-on-\underbrace{linear-gaussion-model}_{local}\tag{5}$

注：从全局来看，有向图就是一个高斯贝叶斯网络，从局部来看就是一个线性高斯模型；
$X_i$ 和 $X_{pa(x)}$ 组成了线性高斯模型

我们来回顾下标准的线性高斯标准模型式：
隐变量 X 满足高斯分布 $X_i\sim N(\mu_i,\sigma_i)$
$P(x)=N(X|\mu_x,\Sigma_x)\tag{6}$
$P(y|x)=N(y|Ax+b,\Sigma_y)\tag{7}$
由于高斯分布的共轭性可得，如果隐变量满足高斯分布，那么其线性表达式也满足高斯分布。线性模型的线性表示 y 与 x 为线性关系。

2.3 卡曼滤波-特殊的高斯贝叶斯网络

我们知道卡曼滤波是一个有向图的高斯网络，满足隐变量X满足高斯分布，具体公式如下：
$P(x_t|x_{t-1})=N(x_t|A·x_{t-1}+B,Q)\tag{8}$
$P(y_t|x_{t})=N(y_t|C·x_{t-1}+D,R)\tag{9}$
且满足如下线性高斯关系：
$x_t=A·x_{t-1}+B+\epsilon;\epsilon \sim(0,Q)\tag{10}$
$y_t=C·x_{t}+D+\sigma;\sigma \sim(0,R)\tag{11}$

参数为: $\lambda=(\pi,A,B)$

$\pi:初始矩阵；A：转移矩阵(P(x_t|x_{t-1}));B:发射矩阵(P(y_t|x_t))$

由此可见，小结如下：
$卡曼滤波其实本质上就是一种隐变量为链式结构的高斯贝叶斯网络$

2.4 高斯贝叶斯数学模型

现在我们分析下通用的高斯贝叶斯网络模型，为了方便说明，我们假设有如下一个高斯贝叶斯网络图。
在这里插入图片描述
有上图可得，对于节点 $X_i$ 来说，其父节点为 $X_1,X_2$ ,则 $x_{pa(i)}=\{x_1,x_2\}$ ,那么我们对于有向图模型来说，其概率图概率密度为如下：
$P(X)=\prod_{i=1}^PP(x_i|x_{pa(i)})\tag{12}$

因为我们不知道节点 $X_i$ 有多少个父节点，所以我们向量加权重的形式表达。我们假设父节点如下：
$x_{pa(i)}=(x_1,x_2,...,x_k)\tag{13}$
那么我们可得得到概率 $P(x_i|x_{pa(i)})$ 如下：
$P(x_i|x_{pa(i)})=N(\{x_i|\mu_i+w_i^Tx_{pa(i)}\},\sigma_i^2)\tag{14}$

$x_i:$ 一维的随机变量

我们把上述式子转换成等式形式如下：
$x_i=\mu_i+\sum_{j\in{X_{pa(i)}}}W^T_{ij}(x_j-\mu_j)+\sigma_i\epsilon_i\tag{15}$

$\epsilon：是一个随机变量；\epsilon \sim N(0,1)$

整理上式可得如下：
$x_i-\mu_i=\sum_{j\in{X_{pa(i)}}}W^T_{ij}(x_j-\mu_j)+\sigma_i\epsilon_i\tag{16}$

注：写成 $(x_i-\mu_i)$ 是为了数据归一化处理，将整个数据的均值移动至零点，方便后期模型的学习。

为了后续计算机的计算的，我们需要将上述公式进行矩阵化处理，为此我们定义如下变量：
$X=(x_1,x_2,...,x_p)^T;\mu=(\mu_1,\mu_2,....,\mu_p)^T\tag{17}$
$W=[W_{ij}];\epsilon=(\epsilon_1,\epsilon_2,...,\epsilon_p)^T;S=diag(\sigma_i)\tag{18}$

公式 16 矩阵化表示：
$X-\mu=W(X-\mu)+S\epsilon\tag{19}$
$(I-W)(X-\mu)=S\epsilon\tag{20}$
注：假设 $(I - W)$ 可逆：
$(X-\mu)=(I-W)^{-1}S\epsilon\tag{21}$
我们再需要求解 $\Sigma$ :
$\Sigma=COV(X)=COV(X-\mu)=COV[(I-W)^{-1}S\epsilon]\tag{22}$
注： $I-W)^{-1}$ 在这里为确定的常数
$COV[(I-W)^{-1}S\epsilon]=\{(I-W)^{-1}S\}^T\{(I-W)^{-1}S\}COV(\epsilon)=\{(I-W)^{-1}S\}^T\{(I-W)^{-1}S\}\tag{23}$

3.高斯马尔可夫随机场

3.1 GMN 与多维高斯分布关系

我们现在就需要将高斯马尔可夫随机场，即高斯无向图与多维的高斯分布对应起来，因为我们知道，对于一个高斯无向图来说，我们希望用计算机的思维去解读相关知识。

多维高斯的概率密度函数如下：
$P(X)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp\{-\frac{1}{2}(X-\mu)^T\Sigma^{-1}(X-\mu)\}\tag{24}$
无向图的因子分解如下：
$P(X)=\frac{1}{Z}\prod_{i=1}^P\psi_i(x_i)·\prod_{i,j\in X}\psi_{i,j}(x_i,x_j)\tag{25}$
$\psi_i(x_i)和\psi_{i,j}(x_i,x_j)$ 都是表示的势函数；
$\psi_i(x_i)$ :一般表示：node-potential；
$\psi_{i,j}(x_i,x_j)$ :一般表示：edge-potential

3.2 目的

现在我们的目的是：如何通过解析多维高斯的概率密度函数，进行拆分后得到跟无向图的因子分解一样的结构
现在我们来解析下公式24，可得：

因为 $\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}$ 与 X 无关，所以P(X)正比于如下：
$P(X)\propto exp\{-\frac{1}{2}(X-\mu)^T\Sigma^{-1}(X-\mu)\}\tag{26}$
我们定义 $\Lambda=\Sigma^{-1}$ ,并展开得到如下：
$P(X)\propto exp\{-\frac{1}{2}(X^T\Lambda X+X^T\Lambda\mu +\mu^T\Lambda X-\mu^T\Lambda\mu)\}\tag{27}$
因为 $\mu^T\Lambda\mu$ 与 X 无关，故可忽略，且 $\mu^T\Lambda X=X^T\Lambda\mu$ ,故可得如下：
$P(X)\propto exp\{-\frac{1}{2}X^T\Lambda X+\mu^T\Lambda X\}\tag{28}$
定义 $\mu^T\Lambda=(\Lambda\mu)^T$ 可得如下：
$P(X)\propto exp\{-\frac{1}{2}X^T\Lambda X+(\Lambda\mu)^TX\}\tag{29}$
对于上述公式，我们可以得到 $-\frac{1}{2}X^T\Lambda X$ 为关于 X 的二次式， $(\Lambda\mu)^TX$ 为关于 X 的一次式。我们常称 $\Lambda$ :precision-matrix精度矩阵； $A\mu$ :potential-vector 势向量

3.3 解析多维高斯分布概率密度

我们知道了多维高斯分布概率密度的简化形式公式29，现在我们的目标式如何将此概率密度函数与高斯无向图结合对应起来。为了方便起见，我们定义如下变量：
$X=(x_1,x_2,....,x_p)^T,\Lambda=(\lambda_{ij})_{p \times p},h=(h_1,h_2,....,h_p)\tag{30}$

展开公式29，我们可以得到关于 $X_i$ 的项
$关于X_i的项目:exp\{-\frac{1}{2}x_i^2\lambda_{ii}+h_ix_i\}\tag{31}$
关于 $X_{ij}$ 的项目
$关于X_{ij}的项目:exp\{-\frac{1}{2}(\lambda_{ij}x_{i}x_j+\lambda_{ji}x_{j}x_i)\}=exp\{-\lambda_{ij}x_ix_j\}\tag{32}$
由此我们得到如下结论：
我们可以把与 $x_i$ 相关的项目看作 $\psi_i(x_i)=node-potential$
我们可以把与 $x_ix_j$ 相关的项目看作 $\psi_{ij}(x_ix_j)=edge-potential$
如果 $\lambda_{ij}=0$ ，那么 $x_ix_j$ 所代表的势函数 $\psi_{ij}(x_ix_j)=0$ ,，也就意味着在概率图模型中，节点 $x_i$ 和 $x_j$ 之间无边直接相连；
概率图如下：
多维高斯分布概率密度函数与高斯无向图之间联系
$对于节点x_i,x_j来说：-\lambda_{ij}x_ix_j \iff x_i⊥x_j|-\{x_i,x_j\}\tag{33}$
$对于节点x_i来说：x_i|-\{x_i\}\sim N(\sum_{j≠i}\frac{\lambda_{ij}}{\lambda_{ii}}x_j,\lambda^{-1}_{ii})\tag{34}$

3.4 结论

对于高斯无向图模型来说，我们通过训练模型，不仅仅要学习到模型的参数，还需要学习到模型的结构。

结论1(Marginal-Independence)
$x_i⊥x_j,\Sigma=\sigma_{ij}\iff \sigma_{ij}\tag{35}$
结论2(Condition-Independence)
$x_i⊥x_j|-\{x_i,x_j\},\Sigma^{-1}=\Lambda=(\lambda_{ij})\iff \lambda_{ij}=0\tag{36}$
结论3(Distribution)
$\forall x_i,x_i|-\{x_i\}\sim N(\sum_{j≠i}\frac{\lambda_{ij}}{\lambda_{ii}}x_j,\lambda^{-1}_{ii})\tag{37}$
注： $x_i$ 可以看做其他与其相连的 $x_j$ 的线性组合