


梯度爆炸指的是在反向传播过程中,梯度值(即损失函数对参数的偏导数)变得异常大,导致参数更新的步长过大,模型无法收敛。
scaling后进行softmax操作可以使得输入的数据的分布变得更好,你可以想象下softmax的公式,数值会进入敏感区间,防止梯度消失,让模型能够更容易训练。




梯度爆炸指的是在反向传播过程中,梯度值(即损失函数对参数的偏导数)变得异常大,导致参数更新的步长过大,模型无法收敛。
scaling后进行softmax操作可以使得输入的数据的分布变得更好,你可以想象下softmax的公式,数值会进入敏感区间,防止梯度消失,让模型能够更容易训练。

1万+
519

被折叠的 条评论
为什么被折叠?
