自然语言处理(二)概率论信息论基础

本文深入探讨了概率论和信息论在自然语言处理中的基础知识,包括概率的统计和公理化定义、最大似然估计、条件概率、全概率公式和贝叶斯法则。此外,还讲解了信息熵、联合熵、互信息和条件熵等信息论概念,这些理论是理解和应用NLP技术的关键。

概率论

概率

概率的统计定义

  • 频率
    事件A在n次重复随机试验中出现的次数与n的比值。
  • 概率
    在同一条件下做的大量重复试验中,若事件A发生的频率总是在一个确定的常数p附近摆动,并且逐渐稳定于p,那么数p就表示事件A发生的可能性大小,并成为事件A的概率.

概率的公理化定义
设E是随机试验,Ω是E的样本空间,对于E 的每一个事件A赋予一个实数值,
表示事件发生的可能性(记为P(A)P(A)P(A)),则P(A)P(A)P(A)为事件A的概率.概率必须满足如下公理:

  • 非负性
  • 规范性
    P(Ω)=1P(\Omega)=1P(Ω)=1
  • 可加性

最大似然估计(MLE)

最大似然估计(Maximization likelihood estimation, MLE)

如果一个实验的样本空间是s1,s2,…,sns_1,s_2,\dots,s_ns1,s2,,sn,在相同情况下重复实验N次,观察到样本sk(1≤k≤n)s_k(1\leq k\leq n)sk(1kn)的次数维nN(sk)n_N(s_k)nN(sk),则sks_ksk的相对频率为:
qN(sk)=nN(sk)Nq_N(s_k) = \frac{n_N(s_k)}{N}qN(sk)=NnN(sk)
由于∑i=1nnN(sk)=N\sum_{i=1}^nn_N(s_k) = Ni=1nnN(sk)=N,因此∑i=1nqN(sk)=1\sum_{i=1}^nq_N(s_k)=1i=1nqN(sk)=1
当N越来越大时,相对频率qN(sk)q_N(s_k)qN(sk)就越来越接近sks_ksk的概率P(sk)P(s_k)P(sk).
lim⁡N→∞qN(sk)=P(sk)\lim_{N\rightarrow \infty}q_N(s_k) = P(s_k)NlimqN(sk)=P(sk)
在N很大情况下,我们用相对频率来作为概率的估计值,即最大似然估计.

条件概率(conditional probability)

如果A和B是样本空间Ω\OmegaΩ上的两个事件,P(B)>0P(B)>0P(B)>0,那么在给定B时A的条件概率P(A∣B)P(A|B)P(AB)
P(A∣B)=P(A∩B)P(B)P(A|B) = \frac{P(A\cap B)}{P(B)}P(AB)=P(B)P(AB)

全概率公式

P(A)=P(∪i=1nABi)=∑i=1nP(ABi)=∑i=1nP(Bi)P(A∣Bi)P(A) = P(\cup_{i=1}^nAB_i) = \sum_{i=1}^nP(AB_i) = \sum_{i=1}^nP(B_i)P(A|B_i)P(A)=P(i=1nABi)=i=1nP(ABi)=i=1nP(Bi)P(ABi)

贝叶斯法则(Bayes’ theorem)

P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(Bj)P(A∣Bj) P(B_i|A) = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)} P(BiA)=j=1nP(Bj)P(ABj)P(Bi)P(ABi)

贝叶斯决策理论

假设研究的分类问题有c个类别,各类别的状态用wiw_iwi表示,i=1,2,…,ci=1,2,\dots,ci=1,2,,c,对应于各类别wiw_iwi出现的先验概率P(wi)P(w_i)P(wi),在特征空间中观察到某一向量xˉ\bar{x}xˉ是d维特征空间上的某一点,且条件概率密度函数P(xˉ∣wi)P(\bar{x}|w_i)P(xˉwi)是已知的.

那么用贝叶斯公式即可得到后验概率
p(wi∣xˉ)=p(xˉ∣wi)p(wi)∑j=1cp(x∣wjˉp(wj)) p(w_i|\bar{x}) = \frac{p(\bar{x}|w_i)p(w_i)}{\sum_{j=1}^cp(\bar{x|w_j}p(w_j))} p(wixˉ)=j=1cp(xwjˉp(wj))p(xˉwi)p(wi)

期望

EX=x1p1+x2p2+…EX = x_1p_1 + x_2p_2+\dots EX=x1p1+x2p2+
E(X)=∑k=1∞xkpkE(X) = \sum_{k=1}^{\infty}x_kp_kE(X)=k=1xkpk

方差(variane)

描述随机变量的值偏离其期望的程度.
Var(X)=E((X−E(X))2)=E(X2)−E2(X) \begin{aligned} Var(X) &= E((X-E(X))^2)\\ & = E(X^2) - E^2(X) \end{aligned} Var(X)=E((XE(X))2)=E(X2)E2(X)

偏置(Bias)

估计值与实际值的差.

偏置-方差分解

信息论

自信息

一个消息自身所包含的信息量,由事件的不确定性决定,定义为:
I(xi)=−log⁡p(xi)=log⁡1p(xi)I(x_i) = -\log p(x_i) = \log \frac{1}{p(x_i)}I(xi)=logp(xi)=logp(xi)1
单位

  • 取对数底为2,信息量的单位为比特
  • 取对数底为e,信息量的单位为奈特,1奈特=1.443比特
  • 工程上以10为底比较方便,信息量的单位为哈特莱,1哈特莱=3.322比特

信息熵(平均自信息)

随机变量XXXA1…AnA_1\dots A_nA1An共n个可能的状态,每个状态出现的机率分别为p1,…pnp_1,\dots p_np1,pn,则随机变量XXX的平均自信息量为
H(X)=−∑1npilog⁡piH(X) = - \sum_1^np_i \log p_iH(X)=1npilogpi
定义为XXX的信息熵,记为H(X)H(X)H(X).

通常熵的单位为二进制位比特,我们约定0log⁡0=00\log 0=00log0=0

X的具体内容与信息量无关,我们只关心概率分布.


  • 性质
    0≤H(X)≤log⁡∣X∣0\leq H(X) \leq \log|X|0H(X)logX

  • 第一个等号在X为确定值时成立

  • 第二个等号在X均匀分布时成立

  • 均匀分布时熵最大

联合熵

离散型二维随机变量XY的联合熵H(X,y)H(X,y)H(X,y)定义为:
H(X,Y)=−∑x∈X∑y∈Yp(x,y)log⁡2p(x,y)H(X,Y) = - \sum_{x\in X}\sum_{y\in Y}p(x,y)\log_2p(x,y)H(X,Y)=xXyYp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量,是二维随机变量XY的不确定性度量.

互信息

一个事件yjy_jyj所给出关于另一个事件xix_ixi的信息定义为互信息,表示为
I(xi;yj)=I(xi)−I(xi∣yj)=log⁡p(xi∣yj)p(xi)I(x_i;y_j)=I(x_i) - I(x_i|y_j) = \log \frac{p(x_i|y_j)}{p(x_i)}I(xi;yj)=I(xi)I(xiyj)=logp(xi)p(xiyj)
互信息是已知事件yjy_jyj后所消除的关于事件xix_ixi的不确定性的减少量,即Y的值透露了多少关于X的信息量.

条件熵

有两个变量:x,y.它们不是独立的,给定随机变量X的情况下,随机变量Y的条件熵的定义为:
H(Y∣X)=∑ip(xi)H(H∣xi)=−∑i∑jp(xi)p(yj∣xi)log⁡p(yj∣xi)=−∑i∑jp(xiyj)log⁡p(yj∣xi) \begin{aligned} H(Y|X) &= \sum_ip(x_i)H(H|x_i)\\ & = - \sum_i\sum_jp(x_i)p(y_j|x_i)\log p(y_j|x_i)\\ & = - \sum_i\sum_j p(x_iy_j)\log p(y_j|x_i) \end{aligned} H(YX)=ip(xi)H(Hxi)=ijp(xi)p(yjxi)logp(yjxi)=ijp(xiyj)logp(yjxi)
其中,H(Y∣X)H(Y|X)H(YX)表示已知X时,Y的平均不确定性.
H(Y∣X)≤H(Y)H(Y|X)\leq H(Y)H(YX)H(Y)

联合熵与信息熵、条件熵的关系

H(XY)≤H(X)+H(Y)H(XY)\leq H(X) + H(Y)H(XY)H(X)+H(Y)
当二维随机变量X、Y相互独立时,等号成立.

相对熵

两个概率分布p(x)p(x)p(x)q(x)q(x)q(x)的相对熵定义为:
D(p∣∣q)=∑x∈Xp(x)log⁡p(x)q(x)D(p||q) = \sum_{x\in X}p(x)\log \frac{p(x)}{q(x)}D(pq)=xXp(x)logq(x)p(x)
相对熵通常被用来衡量两个随机分布的差距,当两个随机分布相同时,其相对熵为0,当两个随机分布的差别增大时,其相对熵也增大.

交叉熵

一个随机变量X p(x)X~p(x)X p(x)q(x)q(x)q(x)为近似p(x)p(x)p(x)的概率分布,随机变量X和模型q之间的交叉熵定义为:
H(X,q)=H(X)+D(p∣∣q)=−∑xp(x)log⁡q(x)H(X,q) = H(X) + D(p||q) = - \sum_x p(x)\log q(x)H(X,q)=H(X)+D(pq)=xp(x)logq(x)
交叉熵的概念用以衡量估计模型与真实概率分布之间的差异.

困惑度

设计语言模型时,通常用困惑度来代替交叉熵衡量语言模型的好坏,给定语言L的样本l1m=l1⋯lnl_1^m = l_1\cdots l_nl1m=l1ln,L的困惑度PPqPP_qPPq定义为:
PPq=2H(L,q)≈2−12log⁡q(l1n)=[q(l1n)]−1/nPP_q = 2^{H(L,q)}\approx2^{-\frac{1}{2}\log q(l_1^n)} = [q(l_1^n)]^{-1/n}PPq=2H(L,q)221logq(l1n)=[q(l1n)]1/n
语言模型设计的任务就是寻找困惑度最小的模型,使其接近真实的语言.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值