为什么Batch Norm有效？

最新推荐文章于 2026-03-29 20:58:00 发布

原创

最新推荐文章于 2026-03-29 20:58:00 发布 · 1.4k 阅读

Batch Norm通过标准化输入，防止梯度爆炸和消失，稳定训练过程。它限制了隐藏层输入的变动幅度，保持各层输出的方差一致性，减少层间耦合，提升训练速度。此外，Batch Norm有助于解决优化问题，弱化Hessian矩阵的病态，优化学习率选择，增强网络对非IID数据的泛化能力，并具有正则化效果。

最近思考得到的解答，将input进行norm标准化，等价于input进行了缩放，在进行反向传播修正时(以mini batch-SGD为例)，计算梯度时，不会出现梯度爆炸和消失（因为在这之前对input进行了norm）。同时batchsize的选取很有讲究，batch太小，计算出的梯度下降方向震荡，或是出现前后更新方向相抵消。导致难以学习，或者无法收敛。太大会导致下降方向无太大变化，求解最优解依赖于学习率的设置，相比batch较小时会消耗更长的时间。

为什么保证方差的一致性对训练有益处？

思考《PRML》中提到的，机器学习算法的基础是独立同分布，在这个大前提下，我们所使用的数据集的分布是被假设为与数据集涉及的内容具有相同分布的（联想吉布斯采样，再联想蒙特卡洛方法），如若不满足独立同分布的假设，那么算法在应用时将会出现问题。现在考虑将大环境设置为深度学习数据集的分布，每次的batch被视为与数据集具有相同分布。此时在训练时由于方差相同，所以不会出现模型繁华问题。同理batchnorm中的将每层的input batch进行标准化，是指服从0均值，1方差的分布，亦能加速训练。

######################################################################################################

卷积神经网络中隐藏层输入为前一层的输出，因此，如果前一层输出的分布改变，那么后续隐藏层的权重矩阵与偏置值必将发生改变（重现训练已学习适应新输入的参数）。

Bacth Norm的使用限制了隐藏层的输入的变动幅度（限制了输入层的均值为0，方差为1），即使前一层的参数发生改变，在BN的作用下一层的输入仍未服从均值为0，方差为1的正太分布，在使用Sigmoid的做为激活函数时，保证了层与层之间梯度的传递。同时每层分布输出的类似，降低了层与层之间的耦合，增强了层与层之间的相互独立性（或者说减少了因前一层变动而影响该层参数的重新训练），因此能够提升网络的训练速度。

提升了层层之间的相互独立性，降低了前一层参数变动对后层的影响等价于