理解流程大致如下:
信息量X轴表示P y轴表示信息量

信息论
交叉熵是信息论中的一个概念,要想了解交叉熵的本质,需要先从最基本的概念讲起。
1 信息量
首先是信息量。假设我们听到了两件事,分别如下:
事件A:巴西队进入了2018世界杯决赛圈。
事件B:中国队进入了2018世界杯决赛圈。
仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大。究其原因,是因为事件A发生的概率很大,事件B发生的概率很小。所以当越不可能的事件发生了,我们获取到的信息量就越大。越可能发生的事件发生了,我们获取到的信息量就越小。那么信息量应该和事件发生的概率有关。
假设X是一个离散型随机变量,其取值集合为χ,概率分布函数,定义事件的信息量为:
由于是概率所以的取值范围是[0,1],绘制为图形如下:

可见该函数符合我们对信息量的直觉
2 熵
考虑另一个问题,对于某个事件,有n种可能性,每一种可能性都有一个概率p(xi)。
这样就可以计算出某一种可能性的信息量。举一个例子,假设你拿出了你的电脑,按下开关,会有三种可能性,下表列出了每一种可能的概率及其对应的信息量

注:文中的对数均为自然对数
我们现在有了信息量的定义,而熵用来表示所有信息量的期望,即:

其中n代表所有的n种可能性,所以上面的问题结果就是

本文详细解释了机器学习中信息量、熵、相对熵(KL散度)和交叉熵的概念。信息量与事件发生的概率相关,熵表示所有可能性的信息量期望,相对熵用于衡量两个概率分布的差异。交叉熵在机器学习中常用作损失函数,特别是在分类问题中,因为它能更好地优化模型。文章还探讨了交叉熵在单分类和多分类问题中的应用,并对比了与MSE损失函数的区别。

1812

被折叠的 条评论
为什么被折叠?



