最大化互信息:
I(X;Z)=H(X)−H(X|Y)
argmaxθI(X;Y)=argmaxθ(−H(X|Y))=argmaxθEq(X,Y)log(q(X|Y))
最小化KL散度
KL(q||p)=∑q(x)logq(x)p(x)=∑q(x)logq(x)−∑q(x)logp(x)
因为,KL散度≥0,最小化KL散度即相当于最大化互信息的下界,即是
argmaxθ=Eq(x)log(p(x))这就是交叉熵
q是输入样本的分布,p是输出的分布
本文详细介绍了信息论中的两个核心概念——互信息与KL散度。互信息衡量两个随机变量之间的相关性,而KL散度则用于度量两个概率分布之间的差异。文中通过数学公式展示了如何最大化互信息及最小化KL散度,并解释了这些操作在实际应用中的意义。
最大化互信息:
I(X;Z)=H(X)−H(X|Y)
argmaxθI(X;Y)=argmaxθ(−H(X|Y))=argmaxθEq(X,Y)log(q(X|Y))
最小化KL散度
KL(q||p)=∑q(x)logq(x)p(x)=∑q(x)logq(x)−∑q(x)logp(x)
因为,KL散度≥0,最小化KL散度即相当于最大化互信息的下界,即是
argmaxθ=Eq(x)log(p(x))这就是交叉熵
q是输入样本的分布,p是输出的分布

被折叠的 条评论
为什么被折叠?
