最大熵原则与最大熵模型

最新推荐文章于 2025-08-11 16:50:33 发布

原创最新推荐文章于 2025-08-11 16:50:33 发布 · 3.5k 阅读

11 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文深入探讨了信息熵的概念，最大熵原则以及它如何指导建立最大熵模型。最大熵模型在没有先验信息的情况下，通过最大化熵来保持不确定性。在离散变量的条件下，证明了均匀分布是最符合最大熵原则的分布。接着，介绍了最大熵模型的构建过程，通过特征函数描述数据，并利用拉格朗日对偶法求解。最大熵模型的解表现为指数族分布形式，其充分统计量为特征函数。此外，还讨论了最大熵模型与指数族分布之间的关系，指出两者之间的联系。最大熵模型在实际应用中，如CRF和MEMM等，广泛用于建模复杂概率分布。

熵

熵是信息论中的概念，首先需要定义一个事件 $X = x$ 的信息量，要求满足以下两个条件：

越不可能发生的事情，信息越大
几个独立事件同时发生的信息量=每一个事件的信息量之和
个满足以上两个条件的且最为简单的函数就是对数函数了，s.t. $I (x) = - l o g P (x)$
Proof： $P (x)$ 越大， $I (x) = - l o g P (x)$ 越小
$\begin{aligned} I(x_1,x_2,x_3) &= -logP(x_1,x_2,x_3)\\ &= -logP(x_1)P(x_2)P(x_3)\\ &= -(logP(x_1)+logP(x_2)+logP(x_3))\\ &= I(x_1)+I(x_2)+I(x_3) \end{aligned}$

有了事件的信息量之后，可以定义熵为满足分布P的事件所产生的期望信息量：
$E_{x\sim P}[I(x)]= -E_{x\sim P}[logP(x)] = -\sum_{i}P(x_i)logP(x_i)$

最大熵原则与最大熵模型

最大熵原则 的含义是在 满足约束的情况下，对未知的信息不做任何假设，尽量保持可能性最大。

下面证明对于一个离散变量 $X$ ，在没有任何其他先验的情况下，根据最大熵原则 $X$ 满足均匀分布：

Proof: 假设 $X$ 为离散变量且取值范围是 $\{1,\cdots,k\}$ ，记 $P(X = i) = p_i$ ，那么根据最大熵原则：

$\begin{aligned} \text{max} -\sum_{i=1}^k p_i \text{log}p_i &\iff \text{min} \sum_{i=1}^k p_i \text{log}p_i\\ s.t. &\sum_{i=1}^k p_i =1 \end{aligned}$

由拉格朗日对偶法：
$\begin{aligned} L(p,\lambda) &= \sum_{i=1}^k p_i \text{log}p_i + \lambda(1-\sum_{i=1}^k p_i)\\ \frac{\partial L(p,\lambda)}{\partial p_i} &= \text{log}p_i + p_i * \frac{1}{p_i} - \lambda = 0\\ & \Rightarrow p_i = \frac{1}{\lambda -1} \quad \forall i \end{aligned}$

所有的 $p_i$ 是相等的常值，因此 $X$ 服从均匀分布。得证。

下面介绍 最大熵模型，对于给定数据集 ${X,Y\}$ ，不失一般性，可以用特征函数 $f (x, y)$ 来描述，特征函数可以是任何形式，例如：
$\left\{ \begin{array}{c} 1& (x,y)满足某一事实\\ 0 & 否则\end{array}\right.$

如果模型可以获取训练数据中的信息，那么对于任意特征函数，我们可以假设： $f (x, y)$ 关于经验分布 $\tilde{P}(x,y)$ 的期望值= $f (x, y)$ 关于预测分布 $P (x, y)$ 的期望值：

$E_{(x,y)-\tilde{P}(x,y)}(f) = \sum_{x,y}\tilde{P}(x,y)f(x,y)$
$E_{(x,y)-P(x,y)}(f) = \sum_{x,y}P(x,y)f(x,y) = \sum_{x,y} \tilde{P}(x)P(y|x)f(x,y)$
$\Rightarrow \sum_{x,y}\tilde{P}(x,y)f(x,y) = \sum_{x,y} \tilde{P}(x)P(y|x)f(x,y)$

根据 最大熵原则，首先给出条件熵：
$\sum_i P(x_i)H(Y|X=x_i) = -\sum_{i}P(x_i)\sum_j P(y_i|x_i)logP(y_i|x_i)$

那么，最大熵模型 的目标函数就是：
$\begin{aligned} min_P \sum_{x,y}\tilde{P}(x)P(y|&x)logP(y|x)\\ s.t. \sum_{x,y}\tilde{P}(x,y)f(x,y) &= \sum_{x,y} \tilde{P}(x)P(y|x)f(x,y)\\ \sum_{y}P(y|x)& =1 \end{aligned}$

求解带约束的最小化问题可以用拉格朗日对偶法。首先定义Lagrange函数：
$\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x) + w_0 (1-\sum_{y}P(y|x))+ \\ \sum_i w_i(\sum_{x,y}\tilde{P}(x,y)f(x,y)-\sum_{x,y} \tilde{P}(x)P(y|x)f(x,y))$
则有:

$\left\{ \begin{array}{c} \sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)& 当P满足所有约束条件\\ +\infty & 否则\end{array}\right.$

所以求解目标函数等价于求解 $min_P max_w L(P,w)$ 又由于 $L (P, w)$ 是关于P的凸函数，因此可以通过解对偶问题 $max_w min_P L(P,w)$ 来得到原始问题的解。首先求 $min_P L(P,w)$ ，记 $P_w(y|x) = argmin_P L(P,w)$ ， $L (P, w)$ 关于 $P (y ∣ x)$ 求导：
$\begin{aligned} \frac{\partial L(P,w)}{\partial P(y|x)}& = \sum_{x,y} \tilde{P}(x)(logP(y|x)+1) -\sum_{y} w_0 -\sum_iw_i\sum_{x,y}\tilde{P}(x)f_i(x,y)\\ & = \sum_{x,y} \tilde{P}(x)[logP(y|x)+1-w_0-\sum_iw_if_i(x,y)] \end{aligned}$

由 $\frac{\partial L(P,w)}{\partial P(y|x)} = 0 \Rightarrow P(y|x) = exp(\sum_iw_if_i(x,y)+w_0-1) = \frac{exp(\sum_iw_if_i(x,y))}{exp(1-w_0)}$
由于 $\sum_{y}P(y|x) =1$
$\Rightarrow P_w(y|x) = \frac{exp(\sum_iw_if_i(x,y))}{Z_w}$
其中 $Z_w$ 为归一化因子。

在这一步我们发现满足约束条件的函数形式有很多种，但是还要满足最大熵原则这个条件，就只能是指数函数形式!! 因此之后的很多通过特征函数来定义目标函数的算法例如CRF,MEMM都用到了最大熵的这个思想，因此它们的目标函数也是指数形式的！

再深究一下，最后结果中的指数函数 $e x p$ ，其实是来自于熵定义中的对数函数 $l o g$ ，而这个 $l o g$ 的形式又来自于信息量的定义，而 $l o g$ 正是可以满足信息量两个要求的最简单的函数了！很奇妙有木有~

言归正传，现在还需要求解 $max_w\phi(w)$ ，其中 $\phi(w) = min_P L(P,w) = L(P_w,w)$ ，因此
$\begin{aligned} \phi(w) & = \sum_{x,y}\tilde{P}(x)P_w(y|x)logP_w(y|x)+ \sum_iw_i(\sum_{x,y}\tilde{P}(x,y)f_i(x,y)-\sum_{x,y}\tilde{P}(x)P_w(y|x)f_i(x,y))\\ & = \sum_{x,y}\tilde{P}(x)P_w(y|x)(logP_w(y|x)-\sum_{i}w_if_i(x,y))+ \sum_{x,y}\tilde{P}(x,y)\sum_{i}w_if_i(x,y)\\ & = -\sum_{x,y}\tilde{P}(x)P_w(y|x)logZ_w + \sum_{x,y}\tilde{P}(x,y)\sum_{i}w_if_i(x,y) \end{aligned}$

与此同时，我们可以来看一下最大熵函数的似然函数，由上面说到的最大似然的第二种形式：
$\begin{aligned} L(P;w) &= log\prod_{x,y}P(x,y)^{\tilde{P}(x,y)}\\ & = \sum_{x,y}\tilde{P}(x,y)logP(x,y)\\ & =\sum_{x,y}\tilde{P}(x,y) log\tilde{P}(x)P(y|x)\\ & =\sum_{x,y}\tilde{P}(x,y)logP(y|x)+\sum_{x,y}\tilde{P}(x,y)log\tilde{P}(x) \end{aligned}$
后面一项 $\sum_{x,y}\tilde{P}(x,y)log\tilde{P}(x)$ 为固定项，因此
$\begin{aligned} L(P_w;w) &=\sum_{x,y}\tilde{P}(x,y)logP_w(y|x)\\ & = \sum_{x,y}\tilde{P}(x,y) (\sum_{i}w_if_i(x,y)-logZ_w)\\ & = \sum_{x,y}\tilde{P}(x,y)\sum_{i}w_if_i(x,y) - \sum_{x,y}\tilde{P}(x)P_w(y|x)logZ_w \end{aligned}$