AdamW 是 Adam 优化器加上 L2 正则,这样可限制参数值不可太大,之前的 L2 正则是直接加在损失函数上,Loss = Loss + 1/2 * λ ∑θ^2;Adamw 即 Adam + weight decate ,效果与 Adam + L2 正则化相同,但是计算效率更高,之前的 L2 正则化需要在 loss 中加入正则项再算梯度,反向传播,AdamW 直接将正则项的梯度加入反向传播的公式中,减少在 loss 中加正则项这一步。

参考:
AdamW是Adam优化器与权重衰减(L2正则化)的结合,它提升了计算效率,避免了在损失函数中直接添加正则项。通过直接在反向传播公式中处理正则项的梯度,AdamW简化了计算过程,使模型训练更为高效。
AdamW 是 Adam 优化器加上 L2 正则,这样可限制参数值不可太大,之前的 L2 正则是直接加在损失函数上,Loss = Loss + 1/2 * λ ∑θ^2;Adamw 即 Adam + weight decate ,效果与 Adam + L2 正则化相同,但是计算效率更高,之前的 L2 正则化需要在 loss 中加入正则项再算梯度,反向传播,AdamW 直接将正则项的梯度加入反向传播的公式中,减少在 loss 中加正则项这一步。

参考:
1万+
6813
4万+
4545
1884

被折叠的 条评论
为什么被折叠?
