深度学习优化器的原理总结（SGD/SGD with momentum/Adagrad/AdaDelta/RMSProp/Adam/Nadam）

最新推荐文章于 2026-03-27 16:40:54 发布

原创最新推荐文章于 2026-03-27 16:40:54 发布 · 3.8k 阅读

·

3

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

算法同时被 3 个专栏收录

150 篇文章

订阅专栏

68 篇文章

订阅专栏

17 篇文章

订阅专栏

本文总结了深度学习中的优化器，包括SGD、带动量的SGD、Nesterov、AdaGrad、AdaDelta/RMSProp、Adam及Nadam的工作原理。这些优化器通过不同方式调整学习率，如动量、二阶动量的累积和自适应调整，以提升模型训练效率和避免局部最优。

Python3.8

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

优化器的框架：

目标函数关于当前参数的梯度

$g_{t} = \triangledown f(w_{t})$ ;
根据历史梯度计算一阶动量与二阶动量：

$m_{t} = \Phi (g_{1},g_{2},... ,g_{t})$ ;

$v_{t} = \Psi (g_{1},g_{2},... ,g_{t})$ ;
计算当前时刻的下降梯度：

$\eta_{t} = \frac{\alpha *m_{t}}{\sqrt{v_{t}}}$ ;
根据 $\eta_{t}$ 更新参数：

$w_{t+1} = w_{t} - \eta _{t}$ ;

现在我们来一个个分析现有的优化器，如何套入以上的框架。

简单来说，它们的区别就在于 $m_{t}$ 和 $\eta _{t}$ 的定义。

SGD

特点：没有使用动量，收敛慢，容易陷入局部极值。

因为SGD没有利用动量，那它的梯度更新 $m_{t}$ 直接等于 $g_{t}$

$m_{t} = g_{t}$ ; 没有利用动量

$\eta _{t} = \alpha \cdot m_{t}$ ;

SGD with Momentum带动量的SGD

特点：利用了梯度的动量，收敛比SGD快

$m_{t} = \beta \cdot m_{t-1} + (1-\beta )\cdot g_{t}$ ；利用了上一次到这一次的梯度的变化动量

$\eta _{t} = \alpha \cdot m_{t}$ ;

SGD+Nesterov

$g_{t} = \bigtriangledown f(w_{t} - \alpha \cdot m_{t-1}/\sqrt{v_{t-1}})$

后面的跟SGD一样了。这里的 $g_{t}$ 的更新原理利用了Nesterov，可以达到什么效果呢？

AdaGrad

特点：使用了二阶动量，可以自适应地调整步长，但是它的二阶动量是累计全部历史，可能会提前停止学习。

在第3步中，公式 $\eta_{t} = \frac{\alpha *m_{t}}{\sqrt{v_{t}}}$ 中的 $v_{t}$ 在这里的定义是：

$v_{t}=\sum_{i=1}^{t}{g_i^2}$ .（从这个公式可以看出这里是累计的二阶动量的全部历史）

通常在 $\eta_{t} = \frac{\alpha *m_{t}}{\sqrt{v_{t}}}$ 中添加平滑项 $\varepsilon$ ， $\eta_{t} = \frac{\alpha *m_{t}}{\sqrt{v_{t}}+\varepsilon }$ ，当 $\sqrt{v_{t}}$ 越大，则 $\eta _{t}$ 越小，则容易引起提前停止学习。

AdaDelta/RMSProp

特点：使用了二阶动量，但是其更新方式跟AdaGrad有所不同，AdaGrad是累计了全部历史二阶动量，AdaDelta是累计了一部分。可以避免提前结束学习。

$v_{t} = \beta \cdot v_{t-1} + (1-\beta )\cdot g_t^{2}$ (这个公式是不是和SGD with momentum的更新公式类似呢)

Adam/Nadam

Adam结合了一阶动量与二阶动量，大大加速了收敛速度。

它的一阶动量更新方法跟SGD with momentum相同，即：

$m_{t} = \beta_{1} \cdot m_{t-1} + (1-\beta_{1} )\cdot g_{t}$ ；利用了上一次到这一次的梯度的变化动量

它的二阶动量更新方式跟AdaGrad的相同，即：

$v_{t} = \beta_{2} \cdot v_{t-1} + (1-\beta_{2} )\cdot g_t^{2}$ (这个公式是不是和SGD with momentum的更新公式类似呢)

Nesterov+Adam = Nadam

它的更新方式就是在Adam的基础上，使用Nesterov来更新 $g_{t}$

$g_{t} = \bigtriangledown f(w_{t} - \alpha \cdot m_{t-1}/\sqrt{v_{t-1}})$

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。