反向传播笔记

最新推荐文章于 2025-07-11 22:40:24 发布

原创最新推荐文章于 2025-07-11 22:40:24 发布 · 618 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

CS231n_课程笔记_完结同时被 2 个专栏收录

10 篇文章

订阅专栏

基于深度学习的图像分类

10 篇文章

订阅专栏

本文详细介绍了反向传播的概念，从简单表达式和梯度理解开始，到使用链式法则计算复合表达式，再到反向传播的实际应用，包括分段计算和处理分支情况。文章通过实例解释了加法、乘法和取最大值门单元在反向传播中的行为，强调了数据预处理对梯度计算的影响，帮助理解神经网络中梯度如何流动。

1. 简单表达式和理解梯度

函数变量在某个点周围的极小区域内变化，而导数就是变量变化导致的函数在该方向上的变化率。要注意的是，在这里已经指出了是在“极小区域”内，所以函数在以某一点的数值只能用来估计所对应的自变量发生微小变化时函数值的变化情况；当自变量的变化值很大时是无法用导数进行估计的。
函数关于每个变量的导数指明了整个表达式对于该变量的敏感程度。指的是自变量变化单位长度的时候，因变量变化的长度是自变量的多少倍。
对加法操作求导：

f (x, y) = x + y \to d f d x = 1 d f d y = 1

$\displaystyle f(x,y)=x+y \to \frac {df}{dx}=1\quad\frac {df}{dy}=1$
这就是说，无论其值如何，

x,y $x,y$ 的导数均为1。这是有道理的，因为无论增加

x,y $x,y$ 中任一个的值，函数f的值都会增加，并且增加的变化率独立于

x,y $x,y$ 的具体值（情况和乘法操作不同）。
取最大值操作也是常常使用的：

f (x, y) = m a x (x, y) \to d f d x = 1 (x > = y) d f d y = 1 (y > = x)

$\displaystyle f(x,y)=max(x,y) \to \frac {df}{dx}=1 (x>=y) \quad\frac {df}{dy}=1 (y>=x)$

上式是说，如果该变量比另一个变量大，那么梯度是1，反之为0。例如，若 $x=4,y=2$ ，那么max是4，所以函数对于 $y$ 就不敏感。也就是说，在 $y$ 上增加 $h$ ，函数还是输出为4，所以梯度是0：因为对于函数输出是没有效果的。当然，如果给 $y$ 增加一个很大的量，比如大于2，那么函数f的值就变化了，但是导数并没有指明输入量有巨大变化情况对于函数的效果，他们只适用于输入量变化极小时的情况，因为定义已经指明： $lim_{h\to 0}$ 。

2. 使用链式法则计算复合表达式

现在考虑更复杂的包含多个函数的复合函数，比如 $f(x,y,z)=(x+y)z$ 。虽然这个表达足够简单，可以直接微分，但是在此使用一种有助于读者直观理解反向传播的方法。将公式分成两部分： $q=x+y$ 和 $f=qz$ 。在前面已经介绍过如何对这分开的两个公式进行计算，因为 $f$ 是 $q$ 和 $z$ 相乘，所以 $\displaystyle\frac{\partial f}{\partial q}=z,\frac{\partial f}{\partial z}=q$ ，又因为 $q$ 是 $x$ 加 $y$ ，所以 $\displaystyle\frac{\partial q}{\partial x}=1,\frac{\partial q}{\partial y}=1$ 。然而，并不需要关心中间量 $q$ 的梯度，因为 $\frac{\partial f}{\partial q}$ 没有用。相反，函数f关于 $x,y,z$ 的梯度才是需要关注的。链式法则指出将这些梯度表达式链接起来的正确方式是相乘，比如 $\displaystyle\frac{\partial f}{\partial x}=\frac{\partial f}{\partial q}\frac{\partial q}{\partial x}$ 。在实际操作中，这只是简单地将两个梯度数值相乘，示例代码如下：

# 设置输入值
x = -2; y = 5; z = -4

# 进行前向传播
q = x + y # q becomes 3
f = q * z # f becomes -12

# 进行反向传播:
# 首先回传到 f = q * z
dfdz = q # df/dz = q, 所以关于z的梯度是3
dfdq = z # df/dq = z, 所以关于q的梯度是-4
# 现在回传到q = x + y
dfdx = 1.0 * dfdq # dq/dx = 1. 这里的乘法是因为链式法则
dfdy = 1.0 * dfdq # dq/dy = 1

最后得到变量的梯度 $[dfdx, dfdy, dfdz]$ ，它们告诉我们函数f对于变量 $[x, y, z]$ 的敏感程度。这是一个最简单的反向传播。一般会使用一个更简洁的表达符号，这样就不用写 $df$ 了。这就是说，用 $dq$ 来代替 $dfdq$ ，且总是假设梯度是关于最终输出的。
反向传播可以看做是门单元之间在通过梯度信号相互通信，只要让它们的输入沿着梯度方向变化，无论它们自己的输出值在何种程度上升或降低，都是为了让整个网络的输出值更高。

3. 反向传播实践：分段计算

假设有如下函数：

f (x, y) = x + σ ( y ) σ ( x ) + ( x + y ) 2

$\displaystyle f(x,y)=\frac{x+\sigma(y)}{\sigma(x)+(x+y)^2}$
首先要说的是，这个函数完全没用，读者是不会用到它来进行梯度计算的，这里只是用来作为实践反向传播的一个例子，需要强调的是，如果对x或y进行微分运算，运算结束后会得到一个巨大而复杂的表达式。然而做如此复杂的运算实际上并无必要，因为我们不需要一个明确的函数来计算梯度，只需知道如何使用反向传播计算梯度即可。下面是构建前向传播的代码模式：

x = 3 # 例子数值
y = -4

# 前向传播
sigy = 1.0 / (1 + math.exp(-y)) # 分子中的sigmoi          #(1)
num = x + sigy # 分子                                    #(2)
sigx = 1.0 / (1 + math.exp(-x)) # 分母中的sigmoid         #(3)
xpy = x + y                                              #(4)
xpysqr = xpy**2                                          #(5)
den = sigx + xpysqr # 分母                                #(6)
invden = 1.0 / den                                       #(7)
f = num * invden # 搞定！                                 #(8)

到了表达式的最后，就完成了前向传播。注意在构建代码s时创建了多个中间变量，每个都是比较简单的表达式，它们计算局部梯度的方法是已知的。这样计算反向传播就简单了：我们对前向传播时产生每个变量 $(sigy, num, sigx, xpy, xpysqr, den, invden)$ 进行回传。我们会有同样数量的变量，但是都以 $d$ 开头，用来存储对应变量的梯度。注意在反向传播的每一小块中都将包含了表达式的局部梯度，然后根据使用链式法则乘以上游梯度。对于每行代码，我们将指明其对应的是前向传播的哪部分。

# 回传 f = num * invden
dnum = invden # 分子的梯度                                          #(8)
dinvden = num                                                     #(8)
# 回传 invden = 1.0 / den 
dden = (-1.0 / (den**2)) * dinvden                                #(7)
# 回传 den = sigx + xpysqr
dsigx = (1) * dden                                                #(6)
dxpysqr = (1) * dden                                              #(6)
# 回传 xpysqr = xpy**2
dxpy = (2 * xpy) * dxpysqr                                        #(5)
# 回传 xpy = x + y
dx = (1) * dxpy                                                   #(4)
dy = (1) * dxpy                                                   #(4)
# 回传 sigx = 1.0 / (1 + math.exp(-x))
dx += ((1 - sigx) * sigx) * dsigx # Notice += !! See notes below  #(3)
# 回传 num = x + sigy
dx += (1) * dnum                                                  #(2)
dsigy = (1) * dnum                                                #(2)
# 回传 sigy = 1.0 / (1 + math.exp(-y))
dy += ((1 - sigy) * sigy) * dsigy                                 #(1)

其中需要注意的是，在上文中已经提到用 $dq$ 来代替 $dfdq$ ，所以在这里 $dnum$ 实际是 $dfdnum$ 的缩写。
对前向传播变量进行缓存：在计算反向传播时，前向传播过程中得到的一些中间变量非常有用。在实际操作中，最好代码实现对于这些中间变量的缓存，这样在反向传播的时候也能用上它们。如果这样做过于困难，也可以（但是浪费计算资源）重新计算它们。

在不同分支的梯度要相加：如果变量x，y在前向传播的表达式中出现多次，那么进行反向传播的时候就要非常小心，使用+=而不是=来累计这些变量的梯度（不然就会造成覆写）。这是遵循了在微积分中的多元链式法则，该法则指出如果变量在线路中分支走向不同的部分，那么梯度在回传的时候，就应该进行累加。

4. 回传流中的模式

反向传播中的梯度可以被很直观地解释。例如神经网络中最常用的加法、乘法和取最大值这三个门单元，它们在反向传播过程中的行为都有非常简单的解释。先看下面这个例子：

一个展示反向传播的例子。加法操作将梯度相等地分发给它的输入。取最大操作将梯度路由给更大的输入。乘法门拿取输入激活数据，对它们进行交换，然后乘以梯度。

加法门单元把输出的梯度相等地分发给它所有的输入，这一行为与输入值在前向传播时的值无关。这是因为加法操作的局部梯度都是简单的+1，所以所有输入的梯度实际上就等于输出的梯度，因为乘以1.0保持不变。上例中，加法门把梯度2.00不变且相等地路由给了两个输入。

取最大值门单元对梯度做路由。和加法门不同，取最大值门将梯度转给其中一个输入，这个输入是在前向传播中值最大的那个输入。这是因为在取最大值门中，最高值的局部梯度是1.0，其余的是0。上例中，取最大值门将梯度2.00转给了z变量，因为z的值比w高，于是w的梯度保持为0。

乘法门单元相对不容易解释。它的局部梯度就是输入值，但是是相互交换之后的，然后根据链式法则乘以输出值的梯度。上例中，x的梯度是-4.00x2.00=-8.00。

非直观影响及其结果。注意一种比较特殊的情况，如果乘法门单元的其中一个输入非常小，而另一个输入非常大，那么乘法门的操作将会不是那么直观：它将会把大的梯度分配给小的输入，把小的梯度分配给大的输入。在线性分类器中，权重和输入是进行点积w^Tx_i，这说明输入数据的大小对于权重梯度的大小有影响。例如，在计算过程中对所有输入数据样本x_i乘以1000，那么权重的梯度将会增大1000倍，这样就必须降低学习率来弥补。这就是为什么数据预处理关系重大，它即使只是有微小变化，也会产生巨大影响。对于梯度在计算线路中是如何流动的有一个直观的理解，可以帮助读者调试网络。

本文所介绍内容相对基础简单，更多相关细节可以参考博客《三、梯度下降与反向传播（含过程推导及证明）》

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

独孤呆博

关注关注

2
点赞

踩

1

收藏

觉得还不错? 一键收藏

0
评论

分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫

举报

举报

专栏目录

十三、机器学习进阶知识：神经网络之反向传播算法（梯度、误差反向传播算法BP）

weixin_42051846的博客

02-06 9062

本文主要介绍了神经网络的反向传播过程原理，同时对最常见的误差反向传播算法的原理及实现过程进行说明，通俗易懂，适合新手学习，附源码及实验数据集。

参与评论您还未登录，请先登录后发表或查看评论

深度学习与计算机视觉系列(5)_反向传播与它的直观理解

iteye_2022的博客

12-15 612

作者：寒小阳 && 龙心尘时间：2015年12月。出处：http://blog.csdn.net/han_xiaoyang/article/details/50321873 声明：版权所有，转载请联系作者并注明出处 1. 引言其实一开始要讲这部分内容，我是拒绝的，原因是我觉得有一种写高数课总结的感觉。而一般直观上理解反向传播算法就是求导的一个链式法则而已。但...

量化、数据格式转换相关整理—— 转载

d_b_的博客

07-29 1836

谷歌量化白皮书，常用量化方法介绍

cs231n----反向传播

小白水手的博客

05-08 814

问题陈述：这节的核心问题是：给定函数f(x) ，其中x是输入数据的向量，需要计算函数f关于x的梯度，也就是∇f(x)∇f(x)\nabla f(x)。目标：之所以关注上述问题，是因为在神经网络中fff对应的是损失函数（L）（L）（L），输入xxx里面包含训练数据和神经网络的权重。举个例子，损失函数可以是SVM的损失函数，输入则包含了训练数据(xi,yi),i=1...N(xi,yi),i=1....

BP神经网络理论

qq_55433305的博客

09-29 1688

BP (Back Propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照**误差逆向传播算法**训练的多层前馈神经网络，是应用最广泛的神经网络。BP神经网络由输入层、输出层和之间若干层(一层或多层）隐含层构成，每一层可以有若干个节点。层与层之间节点的连接状态通过权重来体现。只有一个隐含层的时候，这样的BP神经网络属于传统的浅层神经网络**;当有多个隐含层的时候，这样的BP神经网络属于**深度学习的神经网络。

机器学习笔记02:反向传播的推导和使用

风雪夜归人的博客

07-30 166

反向传播看的我一脸懵逼,mark下大佬的笔记,讲的比教材清楚原文链接

刘二大人 反向传播算法—代码笔记

m0_61561392的博客

05-17 127

【代码】刘二大人 反向传播算法—代码笔记。

反向传播算法学习笔记

2301_79061147的博客

02-08 279

一份建立在了解梯度下降基础上的反向传播算法学习笔记，图文并茂，公式详细

CS231n官方笔记：反向传播

cp3

04-13 1109

最近把CS231n关于反向传播这一节的官方笔记看了一下。这篇算是用中文把原文复述了一遍，中间一些地方加入了我自己的理解，很多地方的表述参考了 CS231n课程笔记翻译：反向传播笔记Introduction动机这篇笔记介绍了一些有助于在直觉上理解反向传播（BP）的知识。反向传播是一种通过递归应用链式法则（chain rule）来计算表达式梯度的方法。理解反向传播过程及其精妙之处，对于理解、实现、设计

D2L笔记—前向传播、反向传播和计算图

最新发布

m0_62917354的博客

07-11 505

摘要：自动微分技术简化了深度学习实现。本文通过数学分析和计算图详细探讨了单隐藏层多层感知机的反向传播过程。前向传播从输入层到输出层顺序计算存储结果，包括权重衰减的正则化项处理。反向传播则按相反顺序遍历网络，利用链式法则计算参数梯度。研究发现前向传播和反向传播相互依赖，训练过程需要保存中间值，导致较大内存消耗，批量越大越容易引发内存不足问题。

cs231n笔记（二）反向传播

qq_36216320的博客

07-17 176

CS231n笔记（4）反向传播

Geek_of_CSDN的博客

09-02 569

可终于来到反向传播了。。。之前更新得实在是太慢了。。。简介 反向传播是利用链式法则递归计算表达式的梯度的方法。理解反向传播过程及其精妙之处对于理解、实现、设计和调试神经网络非常关键（疯狂暗示）。问题陈述：核心问题是给定函数f(x)f(x)f(x)，其中xxx是输入数据的向量，需要计算函数fff关于xxx的梯度，也就是∇f(x)∇f(x)\nabla f(x) 参考 CS231...

学习笔记-机器学习中的数学2-微分+反向传播

Zeelam's Blog

04-09 293

微分+反向传播-笔记

深度学习入门课程学习笔记06 反向传播

jacke121的专栏

02-08 1402

深度学习入门课程学习笔记06 反向传播

TensorFlow北大公开课学习笔记-3.3反向传播

小硕算法工程师

02-25 884

笔记中的代码，方便以后使用，并没有详细讲解流程，因为我并不是专门做教程的。何况北大的教程讲的已经很好了，有需要了解详细过程的可以去看北大的教程哈。优化器中都需要一个叫做学习率的参数，使用时，如果学习率选择过大会出现震。荡不收敛的情况，如果学习率选择过小，会出现收敛速度慢的情况。随机梯度下降算法保持单一的学习率更新所有的参数，学。损失函数的计算有很多方法，均方误差 MSE 是比较常用的方法之一。梯度的反方向，即总损失减小的方向移动，实现更新参数。阶矩估计而为不同的参数设计独立的自适应性学习率。

pytorch学习笔记-反向传播算法

chena_1的博客

01-19 1393

针对这个神经元，我们首先的操作是前馈运算（forward），前馈运算就是先沿着图中的箭头方向，由输入向最终的loss计算，先计算最终的loss。于是我们希望设计一个算法，它可以把我们的网络看作是一个图，我们在图上来传播我们的梯度，最终根据链式法则把梯度求出来，这样的算法就叫做。为了解决这个问题，我们需要提高模型的复杂度，换句话说不能进行化简，因为如果可以化简，说明我们设计的多层就没有意义，和一层是一样的。由于反向传播，我们已经知道了l对z的导数，又因为f函数是已知的，所以我们也知道f（x）对x和w的导数，

笔记——反向传播算法

qq_25222187的博客

11-02 344

反向传播算法为什么需要反向传播算法反向传播图解理论层面：链式法则前向通道后向通道反向传播代码作为一个逻辑很差又贼容易懵逼的菜鸟，不做笔记和经常回顾真的学不到东西，脑子一团浆糊。之前明明已经手推了反向传播算法，后面有点遗忘，再加上斯坦福 CS231n 的讲法把我讲懵了，所以必须写一篇针对我自己的理解总结笔记。 反向传播公开课我只服气李宏毅！！！为什么需要反向传播算法首先！让我来捋一下！为什么...

DL学习笔记-反向传播算法的理解

weixin_34149796的博客

09-12 960

作者：杜客链接：https://zhuanlan.zhihu.com/p/21407711来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。译者注：本文智能单元首发，译自斯坦福CS231n课程笔记Backprop Note，课程教师Andrej Karpathy授权翻译。本篇教程由杜客翻译完成，堃堃和巩子嘉进行校对修改。译文含公式和代码，建议PC端阅读。 ...