多分类交叉熵理解

最新推荐文章于 2026-01-23 05:11:51 发布

原创

最新推荐文章于 2026-01-23 05:11:51 发布 · 3.8k 阅读

标签

#sklearn #python

多分类交叉熵有多种不同的表示形式，如下图所示：

但是，有时候我们读论文会深陷其中不能自拔。

也有很多读者、观众会纠正其他作者的文章、视频的交叉熵形式。

实际上，上述三种形式都是没有问题的。

这里，我们就要了解交叉熵的本质。交叉熵，可以用一句话来形容：

正确标签的自然对数。

我们看个例子：

具体情况如下：

——三幅图像，其分别对应着数字3、数字6、数字8

如果将其标识位one-hot形式，则其对应的值为：

也就是对应位置上的值为1，其余位置为0.

——三幅图像的识别结果为y_pred如下图所示：

计算交叉熵，就是计算【正确标签的自然对数】

具体来说，计算的是

-t*log(y_pred)

当然，根据需要后续需要计算和和均值。

所以，我们通常看到的表达式是：

或者：

都是可以的，因为代入数据，计算结果是一致的。

下面，我们分别通过三种不同的方式计算交叉熵损失函数

方式0：手动计算
方式1：调用sklearn函数计算
方式2：自定义函数计算

全部代码如下：

# -*- coding: utf-8 -*-
"""
Created on Wed Nov  9 12:22:39 2022

@author: Administrator
"""
import numpy as np
from sklearn.metrics import log_loss
from sklearn.preprocessing import LabelBinarizer
from math import log


# 三个样本对应的标签
# 这里指三幅图像分别对应着数值3、数字6、数字8
y_true = ['3', '6', '8']  
# 预测值，这里使用softmax处理过了。所有概率和为0
# 例如：第一行对应着第一张图像的识别结果：0.1+0.3+0.6+一堆0=1
# 第2行：0.2+0.5+0.3+一堆0=1
# 第3行：0.3+0.5+0.2+一堆0=1
y_pred = [[0.1, 0, 0.3, 0.6, 0, 0, 0, 0, 0, 0],
          [0, 0, 0.2, 0, 0, 0, 0.5, 0, 0.3, 0],
          [0, 0.3, 0, 0, 0.5, 0, 0, 0, 0.2, 0]