关于SGD优化器的学习率衰减的问题

最新推荐文章于 2026-04-25 10:35:43 发布

原创

最新推荐文章于 2026-04-25 10:35:43 发布 · 5.7k 阅读

标签

#深度学习 #python #人工智能

收录于

在训练分类器时遇到loss下降不明显的问题，怀疑是学习率过大。研究发现SGD优化器中，学习率衰减公式为：initial_rate * (1 - decay) ^ iteration。发现该公式在初期衰减较快，后期衰减缓慢。建议使用decay=0.01以更快达到0.1的学习率。对于跨epoch的学习率衰减，可以利用scheduler。文中指出SGD的学习率衰减方式较为简单，可考虑其他优化器或自定义学习率策略。

由于学术需要，这段时间再训练一个分类器，但其效果不太好，loss下降不明显。便考虑是不是学习率的问题，由于使用的是SGD，其中一个参数为decay，借鉴别人的参设默认值，decay 一般设为1x10^-4 .我怀疑是训练过程种学习率太大，于是想找到SGD优化器种学习率衰减的公式，但能力有限，读代码没读懂，就在网上找，也没找到。
最后再Google上找到了，帖子的连接如下：
https://machinelearningmastery.com/understand-the-dynamics-of-learning-rate-on-deep-learning-neural-networks/
计算的公式如下：
initial_rate为初始优化器时的学习率，decay为衰减参数，iteration为迭代次数
但这个衰减的公式过于简单，再前期衰减的很快，后期几乎不衰减。

例如当decay = 0.1时
在这里插入图片描述

要到100个iteration时才能将为原来的0.1左右

当decay = 0.01 时
在这里插入图片描述

这样衰减效果就明显多了，1000个iteration时即可到达初始学习率的0.1左右
而且SGD学习率是在同一个epoch，不同iteration之间的。想要再不同epoch

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

alone_Messi

关注关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AI学习指南深度学习篇-SGD超参数调优与性能优化

俞兆鹏的博客

09-07

965

在深度学习领域中，随机梯度下降（Stochastic Gradient Descent, SGD）是一种常用的优化算法，用于训练神经网络模型。通过调整SGD的超参数，如学习率、批量大小等，可以提高模型的性能并减少训练时间。本篇博客将介绍如何调整SGD的超参数以获得更好的性能，并讨论如何优化SGD的训练过程，以避免过拟合和提高收敛速度。

参与评论您还未登录，请先登录后发表或查看评论

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

热门推荐

余昌黔|书山有路

08-24

6万+

前言（标题不能再中二了）本文仅对一些常见的优化方法进行直观介绍和简单的比较，各种优化方法的详细内容及公式只好去认真啃论文了，在此我就不赘述了。SGD此处的SGD指mini-batch gradient descent，关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不

深度学习基础：最优化算法（优化器，学习率，SGD，Adam， Momentum， NAG等）

qq_36998146的博客

01-24

1597

Adam法同时包含了动量更新与学习率调整，使用梯度的一阶矩估计和二阶矩估计来动态调整学习率，Momentum和Rmspop相结合。优点简单，缺点不稳定，学习率敏感，迭代慢。其优缺点比较明显：优点是二阶的方法利用了导数的二阶信息，因为优化方向更加准确，速度更快；但是二阶需要计算或近似估计Hessian矩阵，一阶方法一次迭代更新复杂度O(N)，N是参数量，二阶方法就是O(N*N)，计算量大。Adam使用的是梯度的一阶矩估计和二阶矩估计（梯度的二阶矩估计，也称为梯度平方的指数加权移动平均）。

梯度下降算法(SGD)、学习率

蔡林浩的博客

07-04

2177

梯度下降算法

深度学习学习率的设置

u010598445的专栏

07-24

2103

目录理论代码参考理论 sgd默认为0.01，adam默认为0.001 加载预训练模型时，学习率变为原来的10% batch size变大k倍时，理论上学习率变大sqrt(k)倍，但实际上用线性规则变大k倍更好。通过实验估计最优lr 代码 pytorch-lr-finder fastai, pytorch-lightning 与keras都支持lr-finder 参考与batch size的sqrt(k)关系 One weird trick for parallelizing convolut

（Note）优化器Adam的学习率设置

Hanlin的博客

07-21

1万+

从统计的角度看，Adam的自适应原理也是根据统计对梯度进行修正，但依然离不开前面设置的学习率。如果学习率设置的过大，则会导致模型发散，造成收敛较慢或陷入局部最小值点，因为过大的学习率会在优化过程中跳过最优解或次优解。同时神经网络的损失函数基本不是凸函数，而梯度下降法这些优化方法主要针对的是凸函数，所以在优化方面深度学习的学习率会设置的比传统机器学习小得多。如果学习率设置过高，Adam优化器只会矫正梯度，而不会影响设置的初始学习率，这时模型的Loss会出现较大的波动，这代表模型没有办法收敛。......

SGD，Adam，AdamW，LAMB优化器

flyingluohaipeng的博客

03-31

1万+

BERT 预训练包括两个阶段：1）前 9/10 的训练 epoch 使用 128 的序列长度，2）最后 1/10 的训练 epoch 使用 512 的序列长度。优化器是用来更新和计算影响模型训练和模型输出的网络参数，使其逼近或达到最优值，从而最小化(或最大化)损失函数。优点：简单性，在优化算法中没有太多的参数需要调整，通过少量的计算量就可以获得比较好的结果。为预先设定的超参数，分别代表参数调整的下界和上界。这一简单的调整所带来的实际效果非常显著。随机梯度下降是最简单的优化器，它采用了简单的梯度下降法，

nnUNet 更改学习率和衰减优化器的方法

qq_36340554的博客

11-06

2451

我们可以继承nnUNetTrainer类重写一个 nnUNetTrainerCosAnneal类，当然nnUnet已经贴心的为我们写好了在.\nnUNet\nnunetv2\training\nnUNetTrainer\variants\optimizer\nnUNetTrainerAdam。警告已经说的很明白了，就不翻译了，为了避免不能在训练的时候调整学习率，我们需要去改变。要修改优化器也可以直接在。

用 Python 从零开始创建神经网络（十）：优化器（Optimizers）

xzs1210652636的博客

11-25

1713

一旦我们计算出了梯度，我们就可以使用这些信息来调整权重和偏差，以减少损失的度量。在之前的一个简单示例中，我们展示了如何成功地以这种方式减少神经元激活函数（`ReLU`）的输出。回想一下，我们减去了每个权重和偏差参数的梯度的一部分。虽然这种方法非常基础，但它仍然是一种被广泛使用的优化器，称为随机梯度下降（SGD）。如你将很快发现，大多数优化器只是SGD的变体。

深度学习优化器详解：SGD、Adam与AdamW

直达开源前线，冲冲冲！

04-20

2218

SGD是最基础的优化算法，每次迭代仅使用或计算梯度并更新参数。其中η是学习率，∇θ J是损失函数对参数的梯度。

【优化器】(五) Adam原理 & pytorch代码解析

Lizhi_Tech的博客

07-18

1万+

在之前的文章了，我们学习了SGD，以及在其基础上加了一阶动量的SGD Momentum，还有在其基础上加了二阶动量的AdaGrad、AdaDelta、RMSProp。那么自然而然就会想到把一阶动量和二阶动量结合起来，这样就形成了我们常用的优化器Adam

深度学习优化器与学习率选择实践指南

weixin_30325971的博客

04-21

422

学习率是深度学习模型训练中的关键超参数，直接影响梯度下降算法的收敛速度和最终性能。其核心原理是通过控制参数更新的步长，在训练速度与稳定性之间取得平衡。合理的学习率设置能显著提升模型训练效率，减少计算资源消耗。在实际工程中，学习率选择需要结合优化器特性、模型架构和数据集特点进行综合考量。以Adam为代表的现代优化器因其自适应学习率机制，在计算机视觉和自然语言处理等场景中展现出明显优势。通过系统实验发现，不同优化器存在特定的有效学习率区间，如Adam通常在0.0001~0.01范围内表现最佳。掌握这些规律对提升

模型训练——优化器Optimizer的选择

qq_43199575的博客

11-09

1003

目前，深度学习领域，使用最广泛的优化器种类可分成：SGD和Adam一般来说，使用SGD进行训练，所需要的迭代次数会比较多，因为它收敛速度慢而稳定；Adam类的收敛速度比较快，迭代次数可以设置小一点。但要使用哪种优化器还是要取决于具体的任务和模型，在做项目时，可以先选择Adam类的，训练周期比较短。

深度学习学习率调度策略详解与Keras实现

最新发布

weixin_30642869的博客

04-25

684

学习率是深度神经网络训练中的核心超参数，直接影响模型收敛速度和最终性能。动态调整学习率的调度策略源于优化理论中的退火思想，通过在训练初期使用较大学习率快速逼近最优解，后期逐步减小学习率精细调参。常见的实现方式包括基于时间的连续衰减和基于阶段的离散调整，这两种方法在Keras中都能高效实现。合理的学习率调度不仅能提升模型准确率，还能显著缩短训练时间，特别适用于计算机视觉、自然语言处理等领域的复杂模型训练。本文以Keras框架为例，详细解析了学习率调度的数学原理、实现代码和实战技巧，帮助开发者掌握这一提升模型性

Adam优化器的学习率衰减玄学：为什么第一次下降后效果骤减？

lake5的博客

02-13

477

本文深入探讨了Adam优化器在计算机视觉任务中学习率衰减的独特现象：首次衰减后效果显著提升，而后续衰减收效甚微。通过分析Adam的核心机制与学习率动态，揭示了二阶动量滞后效应和梯度分布变化的影响，并对比了SGD优化器的差异。文章提供了PyTorch/TensorFlow代码示例和优化策略，帮助开发者更好地应用Adam优化器。

sgd、momentum、RMSprop、Adam优化器总结

johsnows的博客

12-24

1239

sgd:zh 之后的优化器主要针对 学习率μ进行改进。 momentum：当一个维度比另一个维度下降地明显更加急促时（经常是局部最优点），朴素 SGD 容易存在收敛极慢的问题。碰到鞍点。 3 Adagrad: Adagrad 为每个参数提供自适应的学习率，它可以为频率低的参数每次提供更大更新、为频率高的参数每次提供更小更新。正因为此，它十分适用于处理稀疏数据。 G是一个对角矩阵，是参数θ在截至时刻t...

【深度学习】优化器

Dong_ZH的博客

02-23

7419

优化器是在深度学习的反向传播过程中，指引损失函数（目标函数）的各个参数往正确的方向更新合适的大小，使得更新后的各个参数让目标函数不断逼近全局最小点。

loss损失曲线下降到一定程度突然上升，准确率突然下降

weixin_44005108的博客

06-29

8400

情况描述：准确率不断上升，看着情况很好，但是等到了一定时间，突然呈现断崖式下降的趋势。之前使用的固定学习率，adam优化器，考虑损失函数应该是没有什么问题的，排查原因，换成SGD优化器，学习率随着迭代次数衰减，衰减公式我是按照我那篇论文给出的方式，大家可以找一找余弦衰减或者其他学习率衰减方式，目前来看，准确率稳定下来了。 ...

TensorFlow模型深度调优指南：全面解析优化器、学习率策略与梯度裁剪（九）

weixin_69882801的博客

02-18

1033

（动量系数γ通常取0.9，有效抑制震荡）增大学习率或延长预热。

YOLO26训练超参调优：SGD优化器实战配置

weixin_35266799的博客

01-25

664

本文介绍了如何在星图GPU平台上自动化部署最新 YOLO26 官方版训练与推理镜像，快速构建目标检测训练环境。基于该镜像，用户可高效开展YOLO26模型的超参调优（如SGD优化器配置），典型应用于工业质检、智能安防等场景中的实时物体检测任务。