AdamW, SGD和L2正则化以及权重衰减

最新推荐文章于 2026-06-03 08:24:23 发布

原创最新推荐文章于 2026-06-03 08:24:23 发布 · 1.1k 阅读

23 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#1024程序员节

自我总结专栏收录该内容

2 篇文章

订阅专栏

Python3.8

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

AdamW, SGD和L2正则化以及权重衰减

虽然已经多次使用过AdamW和SGD，但是对它们的原理以及各种超参数并不是很了解，对于两种优化器和L2正则化以及权重衰减的关系也云里雾里，下定决心要写一篇文章梳理清楚。

一、L2正则化和梯度衰减

1、L2正则化

L2正则化通过在损失函数中增加一个权重平方和的偏置项，促使模型倾向于产生较小的权重，从而防止模型过拟合并提升模型的泛化能力。
假设当前时刻 $t$ 的权重为 $x_t$ ，损失函数为 $f(x_t)$ ，那么加上L2正则化以后的损失函数为
$f_r(x_t) = f(x_t) + \frac{w_t}{2} ||x_t||_2^2 \tag1$

为什么L2正则化可以使模型产生较小的权重: 因为给损失函数增加的惩罚和权重的平方有关，权重较小则产生的惩罚也较小，而较小的权重意味着模型在特征空间中更“平滑”，不会对训练数据中的小波动或异常值过于敏感。这种平滑性使得模型在面对新数据时表现更稳定，降低了过拟合的风险。

2、梯度衰减

权重衰减在更新梯度（注意与L2正则的区别）时减去一个关于权重的偏置，的简单公式表达如下
$x_{t+1} = (1 - w)x_t - \alpha_t \nabla f(x_t) \tag2$
其中 $w$ 是权重衰减率， $\alpha_t$ 是学习率， $\nabla f(x_t)$ 是梯度

3、L2正则化和梯度衰减

在某些情况下，L2正则化和梯度衰减可以是等价的。对（1）求导，
$\nabla f_r(x_t) = \nabla f(x_t) + w_tx_t \tag3$
则当前时刻的权重为
$x_{t+1} = x_t - \alpha_t \nabla f_r(x_t) = x_t - \alpha_t(\nabla f(x_t) + w_tx_t)$
整理公式，
$x_{t+1} = (1-\alpha_tw_t)x_t- \alpha_t \nabla f(x_t)$
此时只要令 $w_t = \frac{w}{\alpha_t}$ ，则可得到与（3）相等的公式。

二、梯度更新中的梯度衰减

SGD

SGD(stochastic gradient descent)是一种常用的优化方法，在实际应用中主要采用带有动量( $m_{t}$ )的SGD，下图中紫色部分是用L2正则化实现，绿色部分是直接用梯度衰减实现
SGD
如果在第6行加上偏置项（相当于L2正则化），那么计算动量时（第8行）也会受影响，不过SGD可以通过对w重参数化达到与直接权重衰减同样的效果，使用L2正则化代替权重衰减，会导致正则和学习率耦合。

AdamW

Adam 如果采用L2正则化的方式，那么会得到如下公式
在这里插入图片描述
此时 $w_tx_{t-1}$ 也会受到分母（即 $v_t$ ）的影响，当梯度较大时分母也会较大（详细解释见https://towardsdatascience.com/why-adamw-matters-736223f31b5d），而梯度较小时分母也较小，这样导致梯度较大时权重被正则地比梯度较小时要少（ $w_tx_{t-1}$ 变小）。并且Adam无法跟SGD一样使用重参数化使L2正则达到和梯度衰减一样的效果，所以AdamW的作者提出在真正更新梯度时再加上权重衰减项（图中绿色部分），将权重衰减从梯度更新中解耦出来。