从交叉熵角度理解困惑度（perplexity）

最新推荐文章于 2026-05-20 13:33:38 发布

原创

最新推荐文章于 2026-05-20 13:33:38 发布 · 5.3k 阅读

·

10

·

标签

#机器学习 #深度学习

从交叉熵理解困惑度

我们通常使用困惑度（perplexity）来评价语言模型的好坏。通过理解困惑度，也可以让我们更加深入的理解交叉熵（CrossEntropy）的意义，也可以轻易量化模型的性能。

回顾交叉熵以及多分类问题的损失函数。假设现有 $N$ 个数据样本，其中样本的标签为 $,N)Y_i(i=1,2,\cdots,N)$ ，而模型对样本的预测值记为 $Yi^(i=1,2,⋯ ,N)\widehat{Y_i}(i=1,2,\cdots,N)$ ，则我们可以计算交叉熵损失：
$CrossEntropy(Y,Y^)=−∑i=1NYilog(Y^i) CrossEntropy(Y,\widehat{Y})=-\sum_{i=1}^NY_{i}log(\widehat{Y}_i)$

这个公式并不那么直观，我们再从一个更加具体的例子来体会一下交叉熵损失的计算过程。

在多分类问题中， $Y_i$ 表示的是一个独热编码(0-1类别)的向量，比如对于三分类的某一个样本标签为： $Y=[0(y1)0(y2)1(y3)]Y=\begin{bmatrix}0 & (y_1) \\ 0 & (y_2) \\ 1 & (y_3) \\ \end{bmatrix}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。