AdamOptimizer和随机梯度下降法SGD的区别

最新推荐文章于 2026-04-26 16:19:32 发布

原创最新推荐文章于 2026-04-26 16:19:32 发布 · 9.2k 阅读

10 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#TensorFlow

收录于

AI 专栏收录该内容

70 篇文章

订阅专栏

本文探讨了AdamOptimizer和随机梯度下降法(SGD)在优化过程中的不同之处，重点解析它们的工作原理和应用场景。AdamOptimizer结合了动量法和RMSProp的优势，适合大规模数据集和非平稳目标函数；而SGD则以其简单和效率高著称，常用于初始化模型权重。了解两者间的区别有助于在实际项目中选择合适的优化器。

Adam 这个名字来源于adaptive moment estimation，自适应矩估计，如果一个随机变量 X 服从某个分布，X 的一阶矩是 E(X)，也就是样本平均值，X 的二阶矩就是 E(X^2)，也就是样本平方的平均值。Adam 算法根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对于每个参数的学习速率。TensorFlow提供的tf.train.AdamOptimizer可控制学习速度。Adam 也是基于梯度下降的方法，但是每次迭代参数的学习步长都有一个确定的范围，不会因为很大的梯度导致很大的学习步长，参数的值比较稳定。it does not require stationary objective, works with sparse gradients, naturally performs a form of step size annealing。AdamOptimizer通过使用动量（参数的移动平均数）来改善传统梯度下降，促进超参数动态调整。

SGD介绍

假如我们要优化一个函数 f(x)