pytorch中eval()对BN层的影响

最新推荐文章于 2026-05-03 09:47:33 发布

原创

最新推荐文章于 2026-05-03 09:47:33 发布 · 2k 阅读

标签

#深度学习 #pytorch #经验分享

收录于

本文揭示了在PyTorch中，通过model.eval()调整BN层运行模式的深层原因，介绍了track_running_stats与training属性的作用，并指出在实际操作中如何正确切换BN层的计算方式。

引言

众所周知BN层在训练和测试时呈现出不同的计算法则，在训练时是对每个batch计算均值和方差，而在测试时则是用训练时batch的均值和方差对数据集整体进行无偏估计，具体可以参见我的另一篇博客：论文解析：Inception_V2(Batch Normalization)。因此我们在编程实现时需要根据所处阶段（训练或者推断）对BN层进行调整。

分析

对于如何根据所处阶段对BN层计算方式做出调整，网络上已经有了很多的介绍，即设置model.eval()。但有细心的朋友可能会发现，BN层初始化时存在一个track_running_stats参数，它的解释如下：

track_running_stats: a boolean value that when set to True, this module tracks the running mean and variance, and when set to False, this module does not track such statistics, and initializes statistics buffers . Default: True

大意就是当这个参数为Ture时，BN模块会不断的跟进均值和方差，而在测试时则不会进行记录，并且会清空记录缓存。（这里涉及到pytorch里对BN层的处理方式，并不是真的存储了所有batch的均值和方差，在推断时统一处理，而是存在一种滑窗的机制，与此文无关不再细聊）。
但如果我们真的执行model.eval()，可以发现BN层的这一参数并未发生改变，测试如下：

model=nn.Sequential(
    nn.Linear(64,32),
    nn.BatchNorm1d(32),
    nn.ReLU(),
)
model.eval()
Out[7]: 
Sequential(
  (0): Linear(in_features

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

夜半罟霖

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

torch 中BN参数介绍

zbzckaiA的博客

12-15

5194

BN层的输出Y与输入X之间的关系是：Y = (X - running_mean) / sqrt(running_var + eps) * gamma + beta，此不赘言。其中gamma、beta为可学习参数（在pytorch中分别改叫weight和bias），训练时通过反向传播更新；而running_mean、running_var则是在前向时先由X计算出mean和var，再由mean和var以动量momentum来更新running_mean和running_var。所以在训练阶段，runn...

参与评论您还未登录，请先登录后发表或查看评论

当网络中有BN层时强化学习选择动作时的处理方式——eval()

weixin_42547302的博客

11-22

1287

在训练网络时，加了BN层，所以在训练时，需要用 model.eval() 固定住BN，此时用的是历史的mean和var 强化学习在做choose_action时，单条数据进神经网络，容易出现错误 RuntimeError: running_mean should contain 1 elements not ***” 这里需要把s加一个维度，变成二维 s = torch.unsqueeze(torch.FloatTensor(s), 0) 此时的s长这样 tensor([[1.,2.,3.]]) 进

pytorch中model.eval的作用

大山的专栏

05-09

3万+

pytorch中model.eval()的作用问题描述： torch.onnx.export()导出onnx模型后，利用onnxruntime加载onnx模型后，其输出结果与原始.pth模型的输出结果之间存在很大的差距；通过拆分网络结构，定位到nn.BatchNorm2d()层导致； Batch Normalization和Dropout Batch Normalization 其作用对网络中间的每层进行归一化处理，并且使用变换重构（Batch Normalization Transform）保证每层提

pytorch model.train() 和model.eval() 对 BN 层的影响

我亦是行人

08-17

879

代码】pytorch model.train() 和model.eval() 对 BN 层的影响。

Pytorch BN(BatchNormal)计算过程与源码分析和train与eval的区别

溪c的博客

06-15

1万+

文章目录1. Pytorch的net.train 和 net.eval2. net.train2.1 BN (Batch Normalization）一、什么是BN？二、BN核心公式三、以全连接网络的BN为例（图例过程）四、PyTorch 源码解读之 BN1.**BatchNorm 原理**2. BatchNorm 的 PyTorch 实现2.1 _NormBase 类**2.1.1 初始化**2.1.2 模拟 BN forward2.1.3 running_mean、running_var 的更新3.

关于Pytorch中的train()和eval()（以及no_grad()）

xu.hyj

07-04

6611

这三个函数实际上很常见，先来简单看下使用方法train()是nn.Module的方法，也就是你定义了一个网络model，那么表示将该model设置为训练模式，一般在开始新epoch训练时，我们会首先执行该命令：同train()一样，其用法和含义也一样，eval()是nn.Module的方法，也就是你定义了一个网络model，那么表示将该model设置为验证模式，一般在开始验证当前model效果时，我......

不止是开关：深入理解PyTorch中model.train()和model.eval()对Dropout与BN层的影响

最新发布

weixin_42571738的博客

05-03

212

本文深入解析了PyTorch中`model.train()`和`model.eval()`对Dropout与BN层的复杂影响，揭示了模式切换背后的底层逻辑和实践陷阱。通过源码分析和实战示例，帮助开发者掌握训练/评估模式下的层行为差异，提升模型性能与调试效率。

Pytorch的BN层使用详解

edward_zcl的博客

01-12

1126

在测试阶段，不用再计算均值方差，则通过net.eval()固定该BN层的running_mean和running_var，此时这两个值即为训练阶段最后一次前向时确定的值，并在整个测试阶段保持不变。对于图像来说（4，3，2，2），一组特征图，一个通道的特征图对应一组参数，即四个参数均为维度为通道数的一维向量，图中gamma、beta参数维度均为[1,3]参数更新是以差分的形式进行的，xt代表新一轮batch产生的数据，x^代表历史数据，这个参数越大，代表当前batch产生的统计数据的重要性越强。

Tensorflow中BN层的使用

05-09

8472

使用tf.layers.batch_normalization()需要三步：在卷积层将激活函数设置为None。使用batch_normalization。使用激活函数激活。需要特别注意的是：在训练时，需要将第二个参数training = True。在测试时，将training = False。同时，在降低loss时候时候： update_ops = tf.get_collectio...

Pytorch深度使用技巧（持续更新）

weixin_45055622的博客

02-14

470

记录一些pytorch的高级使用技巧。

关于pytorch的eval()和no_grad()

qq_27095227的博客

08-06

471

不论是否再no_grad()的条件下，bn层在非eval状态下，只要运行过数据，内部的变量 running_mean running_var num_batches_tracked 都会发生更新，发生变化。而在eval情况下，则会相反。

pytorch模型冻结及BN层存在的坑

m0_64148253的博客

07-12

1560

这是因为BN层搞的鬼，BN层的参数（均值和方差）是在前向传播过程中更新的。注意：使用方法一时，一定要注意不要拼写错误，requires_grad拼写错误的话也不会报错，但是如果拼写错误的话就不能正常把梯度设置为False了，所以有的时候明明把requires_grad设置为False了却还是没有冻结住模型，去看看是不是单词拼写错了，我有好几次都是拼写错误导致模型没有冻结住但是没有及时发现。冻结模型常用的方法有两种，一种是将需要冻结的参数的梯度设置为False，另一种是只将不动结的参数传给优化器。

model.eval()时测试结果远远低于model.train()，如何解决？

qq_36846729的博客

02-17

2322

1. 检查输入数据（train与test）是否经过了归一化 2. 设置model.eval()时，网络中所有bn层里超参 track_running_stats = False 3. 尝试替换BN为LN或GN

pytorch中eval作用

Leo_Adam的博客

07-02

1453

bn和dropout层在train和test时参数是不一样的，为了方便编程，pytorch提出eval函数解决这个问题 1.dropout在train时采用部分神经员参与，但在test时是全部神经元,这就导致dropou层的输出变大，需要添加系数对其修正 2.bn在train时对每一个batch做归一化产生不同的参数，在test时predict实际是train时参数的平均移动 ...

pytorch中torch.Module().eval()有何用处?是否设置之后可以保证模型参数不被更新?

LuffysMan的博客

05-14

4628

关于pytorch Module类eval方法只是一个标志位实测效果结论最近看一篇论文的源码, 作者为了将某几层bn层冻结, 居然对每个bn层调用了 bn层的eval()方法. 我有所怀疑是否有效, 查看了pytorch对应的源码, 并做了测试, 确定这样做没什么卵用. 只是一个标志位 model.eval()只是设置一个标志位, 同理model.train()也是一样. 查看Module类源码, eval()方法只做了一件事情, 调用self.train(False). def eval(se

pytorch中的model.eval()和BN层

weixin_30684743的博客

11-19

2441

class ConvNet(nn.module): def __init__(self, num_class=10): super(ConvNet, self).__init__() self.layer1 = nn.Sequential(nn.Conv2d(1, 16, kernel_size=5, stride=1, padding=2),...

Pytorch 模型训练模式和eval模型下差别巨大（Pytorch train and eval）附解决方案

xiaoxifei的专栏

05-29

9692

当pytorch模型写明是eval()时有时表现的结果相对于train(True)差别非常巨大，这种差别经过逐层查看，主要来源于使用了BN，在eval下，使用的BN是一个固定的running rate，而在train下这个running rate会根据输入发生改变。解决方案是冻住bn def freeze_bn(m): if isinstance(m, nn.BatchNorm2d...

Pytorch中的Batch Normalization layer踩坑

xiaojiajia007的博客

05-12

1万+

1. 注意momentum的定义 Pytorch中的BN层的动量平滑和常见的动量法计算方式是相反的，默认的momentum=0.1 x^ new =(1− momentum )×x^+ momemtum ×xt \hat{x}_{\text { new }}=(1-\text { momentum }) \times \hat{x}+\t...

pytorch eval

jacke121的专栏

01-02

2944

pytorch中的model.eval()和BN层 class ConvNet(nn.module): def __init__(self, num_class=10): super(ConvNet, self).__init__() self.layer1 = nn.Sequential(nn.Conv2d(1, 16, kernel_size=5, s...

BN层详解