详解机器学习由信息量→熵→相对熵→交叉熵 ___转自狐友

最新推荐文章于 2026-03-26 11:21:36 发布

原创

最新推荐文章于 2026-03-26 11:21:36 发布 · 1.9k 阅读

·

1

·

标签

#机器学习 #熵交叉熵相对熵 #机器学习损失函数 #分类损失函数

本文详细解释了机器学习中信息量、熵、相对熵（KL散度）和交叉熵的概念。信息量与事件发生的概率相关，熵表示所有可能性的信息量期望，相对熵用于衡量两个概率分布的差异。交叉熵在机器学习中常用作损失函数，特别是在分类问题中，因为它能更好地优化模型。文章还探讨了交叉熵在单分类和多分类问题中的应用，并对比了与MSE损失函数的区别。

理解流程大致如下：

信息量X轴表示P y轴表示信息量

信息论

交叉熵是信息论中的一个概念，要想了解交叉熵的本质，需要先从最基本的概念讲起。

1 信息量

首先是信息量。假设我们听到了两件事，分别如下：

事件A：巴西队进入了2018世界杯决赛圈。

事件B：中国队进入了2018世界杯决赛圈。

仅凭直觉来说，显而易见事件B的信息量比事件A的信息量要大。究其原因，是因为事件A发生的概率很大，事件B发生的概率很小。所以当越不可能的事件发生了，我们获取到的信息量就越大。越可能发生的事件发生了，我们获取到的信息量就越小。那么信息量应该和事件发生的概率有关。

假设X是一个离散型随机变量，其取值集合为χ,概率分布函数，定义事件的信息量为：

由于是概率所以的取值范围是[0,1],绘制为图形如下：

可见该函数符合我们对信息量的直觉

2 熵

考虑另一个问题，对于某个事件，有n种可能性，每一种可能性都有一个概率p(xi)。

这样就可以计算出某一种可能性的信息量。举一个例子，假设你拿出了你的电脑，按下开关，会有三种可能性，下表列出了每一种可能的概率及其对应的信息量

注：文中的对数均为自然对数

我们现在有了信息量的定义，而熵用来表示所有信息量的期望，即：

其中n代表所有的n种可能性，所以上面的问题结果就是

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。