多分类交叉熵有多种不同的表示形式,如下图所示:

但是,有时候我们读论文会深陷其中不能自拔。
也有很多读者、观众会纠正其他作者的文章、视频的交叉熵形式。
实际上,上述三种形式都是没有问题的。
这里,我们就要了解交叉熵的本质。交叉熵,可以用一句话来形容:
正确标签的自然对数。

我们看个例子:
具体情况如下:
——三幅图像,其分别对应着数字3、数字6、数字8
如果将其标识位one-hot形式,则其对应的值为:

也就是对应位置上的值为1,其余位置为0.
——三幅图像的识别结果为y_pred如下图所示:

计算交叉熵,就是计算 【正确标签的自然对数】
具体来说,计算的是
-t*log(y_pred)
当然,根据需要后续需要计算和和均值。
所以,我们通常看到的表达式是:

或者:
都是可以的,因为代入数据,计算结果是一致的。
下面,我们分别通过三种不同的方式计算交叉熵损失函数
- 方式0:手动计算
- 方式1:调用sklearn函数计算
- 方式2:自定义函数计算
全部代码如下:
# -*- coding: utf-8 -*-
"""
Created on Wed Nov 9 12:22:39 2022
@author: Administrator
"""
import numpy as np
from sklearn.metrics import log_loss
from sklearn.preprocessing import LabelBinarizer
from math import log
# 三个样本对应的标签
# 这里指三幅图像分别对应着数值3、数字6、数字8
y_true = ['3', '6', '8']
# 预测值,这里使用softmax处理过了。所有概率和为0
# 例如:第一行对应着第一张图像的识别结果:0.1+0.3+0.6+一堆0=1
# 第2行:0.2+0.5+0.3+一堆0=1
# 第3行:0.3+0.5+0.2+一堆0=1
y_pred = [[0.1, 0, 0.3, 0.6, 0, 0, 0, 0, 0, 0],
[0, 0, 0.2, 0, 0, 0, 0.5, 0, 0.3, 0],
[0, 0.3, 0, 0, 0.5, 0, 0, 0, 0.2, 0]


2万+

被折叠的 条评论
为什么被折叠?



