自然语言处理(二)概率论信息论基础

最新推荐文章于 2024-11-05 12:47:12 发布

原创最新推荐文章于 2024-11-05 12:47:12 发布 · 888 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#NLP #自然语言处理 #概率论 #信息论 #人工智能

自然语言处理专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨了概率论和信息论在自然语言处理中的基础知识，包括概率的统计和公理化定义、最大似然估计、条件概率、全概率公式和贝叶斯法则。此外，还讲解了信息熵、联合熵、互信息和条件熵等信息论概念，这些理论是理解和应用NLP技术的关键。

概率论

概率

概率的统计定义

频率
事件A在n次重复随机试验中出现的次数与n的比值。
概率
在同一条件下做的大量重复试验中，若事件A发生的频率总是在一个确定的常数p附近摆动，并且逐渐稳定于p，那么数p就表示事件A发生的可能性大小，并成为事件A的概率.

概率的公理化定义
设E是随机试验，Ω是E的样本空间，对于E 的每一个事件A赋予一个实数值，
表示事件发生的可能性（记为 $P (A)$ ），则 $P (A)$ 为事件A的概率.概率必须满足如下公理：

非负性
规范性
$P(Ω)=1P(\Omega)=1$
可加性

最大似然估计(MLE)

最大似然估计(Maximization likelihood estimation, MLE)

如果一个实验的样本空间是 $s1,s2,…,sns_1,s_2,\dots,s_n$ ，在相同情况下重复实验N次，观察到样本 $sk(1≤k≤n)s_k(1\leq k\leq n)$ 的次数维 $n_N(s_k)$ ，则 $s_k$ 的相对频率为：
$qN(sk)=nN(sk)Nq_N(s_k) = \frac{n_N(s_k)}{N}$
由于 $∑i=1nnN(sk)=N\sum_{i=1}^nn_N(s_k) = N$ ，因此 $∑i=1nqN(sk)=1\sum_{i=1}^nq_N(s_k)=1$
当N越来越大时，相对频率 $q_N(s_k)$ 就越来越接近 $s_k$ 的概率 $P(s_k)$ .
$lim⁡N→∞qN(sk)=P(sk)\lim_{N\rightarrow \infty}q_N(s_k) = P(s_k)$
在N很大情况下，我们用相对频率来作为概率的估计值，即最大似然估计.

条件概率(conditional probability)

如果A和B是样本空间 $Ω\Omega$ 上的两个事件， $P (B) > 0$ ，那么在给定B时A的条件概率 $P (A ∣ B)$ 为
$\frac{P(A\cap B)}{P(B)}$

全概率公式

$P(\cup_{i=1}^nAB_i) = \sum_{i=1}^nP(AB_i) = \sum_{i=1}^nP(B_i)P(A|B_i)$

贝叶斯法则(Bayes’ theorem)

$P(B_i|A) = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)}$

贝叶斯决策理论

假设研究的分类问题有c个类别，各类别的状态用 $w_i$ 表示， $i=1,2,…,ci=1,2,\dots,c$ ，对应于各类别 $w_i$ 出现的先验概率 $P(w_i)$ ，在特征空间中观察到某一向量 $xˉ\bar{x}$ 是d维特征空间上的某一点，且条件概率密度函数 $P(xˉ∣wi)P(\bar{x}|w_i)$ 是已知的.

那么用贝叶斯公式即可得到后验概率
$p(w_i|\bar{x}) = \frac{p(\bar{x}|w_i)p(w_i)}{\sum_{j=1}^cp(\bar{x|w_j}p(w_j))}$

期望

$x_1p_1 + x_2p_2+\dots$
$\sum_{k=1}^{\infty}x_kp_k$

方差(variane)

描述随机变量的值偏离其期望的程度.
$\begin{aligned} Var(X) &= E((X-E(X))^2)\\ & = E(X^2) - E^2(X) \end{aligned}$

偏置(Bias)

估计值与实际值的差.

偏置-方差分解

信息论

自信息

一个消息自身所包含的信息量，由事件的不确定性决定，定义为：
$I(xi)=−log⁡p(xi)=log⁡1p(xi)I(x_i) = -\log p(x_i) = \log \frac{1}{p(x_i)}$
单位

取对数底为2，信息量的单位为比特
取对数底为e，信息量的单位为奈特，1奈特=1.443比特
工程上以10为底比较方便，信息量的单位为哈特莱，1哈特莱=3.322比特

信息熵(平均自信息)

随机变量 $X$ 由 $A1…AnA_1\dots A_n$ 共n个可能的状态，每个状态出现的机率分别为 $p1,…pnp_1,\dots p_n$ ，则随机变量 $X$ 的平均自信息量为
$\sum_1^np_i \log p_i$
定义为 $X$ 的信息熵，记为 $H (X)$ .

通常熵的单位为二进制位比特，我们约定 $0log⁡0=00\log 0=0$

X的具体内容与信息量无关，我们只关心概率分布.

熵

图
性质
$0≤H(X)≤log⁡∣X∣0\leq H(X) \leq \log|X|$
第一个等号在X为确定值时成立
第二个等号在X均匀分布时成立
均匀分布时熵最大

联合熵

离散型二维随机变量XY的联合熵 $H (X, y)$ 定义为：
$\sum_{x\in X}\sum_{y\in Y}p(x,y)\log_2p(x,y)$
联合熵实际上就是描述一对随机变量平均所需要的信息量，是二维随机变量XY的不确定性度量.

互信息

一个事件 $y_j$ 所给出关于另一个事件 $x_i$ 的信息定义为互信息，表示为
$I(xi;yj)=I(xi)−I(xi∣yj)=log⁡p(xi∣yj)p(xi)I(x_i;y_j)=I(x_i) - I(x_i|y_j) = \log \frac{p(x_i|y_j)}{p(x_i)}$
互信息是已知事件 $y_j$ 后所消除的关于事件 $x_i$ 的不确定性的减少量，即Y的值透露了多少关于X的信息量.

条件熵

有两个变量:x,y.它们不是独立的，给定随机变量X的情况下，随机变量Y的条件熵的定义为：
$\begin{aligned} H(Y|X) &= \sum_ip(x_i)H(H|x_i)\\ & = - \sum_i\sum_jp(x_i)p(y_j|x_i)\log p(y_j|x_i)\\ & = - \sum_i\sum_j p(x_iy_j)\log p(y_j|x_i) \end{aligned}$
其中， $H (Y ∣ X)$ 表示已知X时，Y的平均不确定性.
$H(Y∣X)≤H(Y)H(Y|X)\leq H(Y)$

联合熵与信息熵、条件熵的关系

$H(XY)≤H(X)+H(Y)H(XY)\leq H(X) + H(Y)$
当二维随机变量X、Y相互独立时，等号成立.

相对熵

两个概率分布 $p (x)$ 和 $q (x)$ 的相对熵定义为:
$\sum_{x\in X}p(x)\log \frac{p(x)}{q(x)}$
相对熵通常被用来衡量两个随机分布的差距，当两个随机分布相同时，其相对熵为0，当两个随机分布的差别增大时，其相对熵也增大.

交叉熵

一个随机变量 $X p (x)$ ， $q (x)$ 为近似 $p (x)$ 的概率分布，随机变量X和模型q之间的交叉熵定义为：
$\sum_x p(x)\log q(x)$
交叉熵的概念用以衡量估计模型与真实概率分布之间的差异.

困惑度

设计语言模型时，通常用困惑度来代替交叉熵衡量语言模型的好坏，给定语言L的样本 $l1m=l1⋯lnl_1^m = l_1\cdots l_n$ ，L的困惑度 $PP_q$ 定义为：
$PPq=2H(L,q)≈2−12log⁡q(l1n)=[q(l1n)]−1/nPP_q = 2^{H(L,q)}\approx2^{-\frac{1}{2}\log q(l_1^n)} = [q(l_1^n)]^{-1/n}$
语言模型设计的任务就是寻找困惑度最小的模型，使其接近真实的语言.