一、Softmax 的定义与原理
Softmax 函数是一种将实数向量映射为概率分布的非线性函数,广泛应用于多分类问题的输出层。其核心思想是通过指数函数放大输入值的差异,再通过归一化得到概率。
数学公式:

其中 z=[z1,z2,…,zK] 是输入向量,K 是类别数。输出满足:
- 每个元素 ∈(0,1)
- 所有元素之和为 1
二、数值稳定性优化
直接计算指数可能导致数值溢出(尤其是大输入时)。改进方法是对输入向量进行平移:

减去最大值后,指数计算更稳定,且不影响输出结果。
三、梯度推导
设
,交叉熵损失为
(其中 y 是 one-hot 标签)。计算梯度
订阅专栏 解锁全文
2189

被折叠的 条评论
为什么被折叠?



