Yolov5学习率动态调整：从Warmup到余弦退火的实战解析

最新推荐文章于 2026-06-15 09:44:57 发布

原创

最新推荐文章于 2026-06-15 09:44:57 发布 · 426 阅读

标签

#Yolov5 #学习率调整 #深度学习 #目标检测

1. 为什么你的Yolov5训练总是不稳定？学习率调整是关键

我刚开始用Yolov5做项目的时候，经常遇到一个头疼的问题：模型训练过程像坐过山车，损失值忽高忽低，有时候前期收敛得挺好，到了后期就死活不动了，甚至还会反弹。折腾了好久，换了数据集、调了网络结构，效果都不明显。后来我把注意力放到了一个最基础、但又最容易被忽视的参数上——学习率。这才发现，原来问题出在这里。

很多朋友，尤其是刚入门目标检测的朋友，拿到Yolov5的代码，一看默认配置跑得还行，就很少去深究里面的训练策略。默认的学习率策略（比如lr0=0.01，lrf=0.2）在COCO这样的大数据集上可能表现不错，但一旦换到我们自己的、数据量小、场景特殊的数据集上，就很容易“水土不服”。学习率就像给模型“喂饭”的速度，喂得太快（学习率太大），它消化不了，到处乱撞，损失震荡；喂得太慢（学习率太小），它又懒洋洋的，半天学不到东西，训练时间巨长。

所以，理解并掌握Yolov5内置的这套动态学习率调整策略，是从“能用”到“用好”Yolov5的关键一步。这套策略的核心，就是标题里提到的两个“黄金搭档”：Warmup（热身） 和 余弦退火（Cosine Annealing）。它们一个负责让模型“平稳起步”，另一个负责引导模型“精细收敛”。今天，我就结合自己踩过的坑和实战经验，带你彻底搞懂这套机制，并手把手教你如何根据自己项目的情况进行调整，让你的模型训练又快又稳。

2. 庖丁解牛：拆解Yolov5学习率策略的三大组件

Yolov5的学习率调整并非一个简单的、所有参数一视同仁的策略。它设计得非常精细，主要包含了三个层面的考量，理解了这三点，你就掌握了其精髓。

2.1 分层优化：权重、偏置和BN层为何要区别对待？

在Yolov5的优化器设置里，你会发现一个很有意思的操作：它把模型的参数分成了三组。这不是随便分的，而是基于不同参数在训练中扮演的不同角色。

# 模拟Yolov5的参数分组逻辑
pg0, pg1, pg2 = [], [], []  # 三组参数
for k, v in model.named_parameters():
    v.requires_grad = True
    if '.bias' in k:
        pg2.append(v)  # 第二组：偏置（bias）
    elif '.weight' in k and '.bn' not in k:
        pg1.append(v)  # 第一组：权重（weight），但不包括BN层的权重
    else:
        pg0.append(v)  # 第零组：其他（主要是BN层的权重和偏置）

# 为不同的参数组设置不同的优化策略
optimizer = optim.SGD(pg0, lr=0.01, momentum=0.937, nesterov=True)
optimizer.add_param_group({'params': pg1, 'weight_decay': 0.0005})  # 对权重施加权重衰减
optimizer.add_param_group({'params': pg2})  # 偏置通常不加权重衰减

为什么要这么做呢？我打个比方：训练模型就像装修房子。

权重（Weights，pg1）：好比是承重墙和主体结构。它们决定了模型的基本能力，需要稳定、扎实的训练。所以我们对它施加权重衰减（Weight Decay），相当于给装修设定一些规范和限制，防止它“过度装修”（过拟合），变得太复杂。
偏置（Biases，pg2）：好比是房间里的家具摆设。它们调整的是输出的“基准线”，比较灵活，通常不需要额外的限制（所以不加权重衰减），让模型能自由地适应数据。
BN层参数（pg0）：好比是房间的采光和通风系统（均值和方差）。它们的作用是稳定内部环境（激活值的分布），让后续的“装修”工作更顺利。对于这些参数，Yolov5的默认做法是既不单独设置学习率，也不加权重衰减，让它们跟着主学习率走。

这种分而治之的思想，让优化器能更精细地控制模型不同部分的更新节奏，是提升训练效果的一个非常实用的技巧。

2.2 Warmup热身：让模型“慢热”起来的秘诀

想象一下，如果你让一个刚从睡梦中醒来的人立刻去百米冲刺，他大概率会抽筋或者摔倒。模型训练也是一样，一开始所有的参数都是随机初始化的，如果直接用一个较大的学习率开始“猛跑”，梯度可能会非常不稳定，导致训练初期就“跑偏”了。

Warmup就是为了解决这个问题。它的核心思想是：在训练的最开始一小段时间（比如前1000次迭代），让学习率从一个很小的值（甚至可以是0）线性地增长到我们预设的初始学习率。

Yolov5中，Warmup的实现非常简洁高效，用的是np.interp进行一维线性插值：

# ni: 当前全局迭代次数 (i + n * epoch)
# 假设Warmup阶段为前1000次迭代
warmup_epochs = 1000
if ni <= warmup_epochs:
    xi = [0, warmup_epochs]  # 横坐标：迭代次数的起点和终点
    for j, param_group in enumerate(optimizer.param_groups):
        # 纵坐标：学习率的起点和终点
        # 注意：对于偏置组（j=2），起点是0.1

最低0.47元/天解锁文章