反向传播算法

最新推荐文章于 2026-04-22 15:54:04 发布

原创最新推荐文章于 2026-04-22 15:54:04 发布 · 1.3k 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#神经网络

算法原理专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了BP神经网络中的反向传播算法原理及计算流程。通过具体实例，逐步推导了权重更新所需的梯度计算方法，展示了如何避免重复计算以提高效率。

在神经网络中，为了最小化损失函数 $loss(w)$ ，我们会逐一对各个 $w_i$ 进行求偏导，然后沿着梯度方向更新各个 $w_i$ 的值。但是直接求导的话这整个过程会产生重复计算。
例如 $z = f(g(x)) = f(y)$ ，则 $\frac{dz}{dx} = \frac{dz}{dy}\frac{dy}{dx}$ ，假设 $x$ 是第 $i$ 层权值， $y$ 是第 $i+1$ 层的权值，如果依次求 $z$ 对于 $x,y$ 的导数需要计算两次 $\frac{dz}{dy}$ 和一次 $\frac{dy}{dx}$ 。而这时我们可以利用动态规划的思想先计算 $\frac{dz}{dy}$ 并保存下来记为 $t$ ，这时候再计算 $\frac{dz}{dx} = t\frac{dy}{dx}$ ，这样就不会出现导数的重复计算。
以上就是Backpropagation算法的思想。
这里举一个具体例子（假设我们现在处于反向传播过程中，现在要更新 $w_1$ ）：

这里要求

∂Etotal∂w1∂Etotal∂w1 $\frac{\partial E_{total}}{\partial w_1}$ ，即最后神经网络输出的损失函数值对当前

w1w1 $w_1$ 的偏导数，下面对它展开：

∂Etotal∂w1=∂Etotal∂(hi+1vout)⋅∂(hi+1vout)∂(hi+1vnet)⋅∂(hi+1vnet)∂w1∂Etotal∂w1=∂Etotal∂(hvi+1out)⋅∂(hvi+1out)∂(hvi+1net)⋅∂(hvi+1net)∂w1 $\frac{\partial E_{total}}{\partial w_1}=\frac{\partial E_{total}}{\partial ({h^{i+1}_v}_{out})}\cdot\frac{\partial ({h^{i+1}_v}_{out})}{\partial ({h^{i+1}_v}_{net})}\cdot\frac{\partial ({h^{i+1}_v}_{net})}{\partial w_1}$
这里，上面的

w1w1 $w_1$ 即为图中的

w1w1 $w_1$ ，

hi+1vnethvi+1net ${h^{i+1}_v}_{net}$ 表示

hi+1vhvi+1 $h^{i+1}_v$ 结点中线性加权后的结果，

hi+1vouthvi+1out ${h^{i+1}_v}_{out}$ 表示

hi+1vhvi+1 $h^{i+1}_v$ 结点的最终输出，

hi+1vnethvi+1net ${h^{i+1}_v}_{net}$ 在经过激励函数后变成

hi+1vouthvi+1out ${h^{i+1}_v}_{out}$ 。通常而言，展开后的第一项

∂Etotal∂hout∂Etotal∂hout $\frac{\partial E_{total}}{\partial h_{out}}$ 就是

errorerror $error$ 项（误差项），而前两项的乘积

∂Etotal∂hnet∂Etotal∂hnet $\frac{\partial E_{total}}{\partial h_{net}}$ 就可以记为

δδ $\delta$ 。下同。下面开始推导。
第一项：

∂Etotal∂(hi+1vout)=∂(Ei+2t+Ei+2t+1)∂(hi+1vout)=δi+2tw4+δi+2t+1w5=∑δi+2twv−t∂Etotal∂(hvi+1out)=∂(Eti+2+Et+1i+2)∂(hvi+1out)=δti+2w4+δt+1i+2w5=∑δti+2wv−t $\frac{\partial E_{total}}{\partial ({h^{i+1}_v}_{out})}=\frac{\partial (E^{i+2}_t+ E^{i+2}_{t+1})}{\partial ({h^{i+1}_v}_{out})}=\delta^{i+2}_tw_4+\delta^{i+2}_{t+1}w_5=\sum\delta^{i+2}_tw_{v-t}$
（由于

∂Ei+2t∂(hi+1vout)=∂Etotal∂(hi+2tnet)⋅∂(hi+2tnet)∂(hi+1vout)=δi+2tw4∂Eti+2∂(hvi+1out)=∂Etotal∂(hti+2net)⋅∂(hti+2net)∂(hvi+1out)=δti+2w4 $\frac{\partial E^{i+2}_t}{\partial ({h^{i+1}_v}_{out})}=\frac{\partial E_{total}}{\partial ({h^{i+2}_t}_{net})}\cdot \frac{\partial ({h^{i+2}_t}_{net})}{\partial ({h^{i+1}_v}_{out})}=\delta^{i+2}_tw_4$ ）
这里，

Ei+2tEti+2 $E^{i+2}_t$ 表示

hi+1vhvi+1 $h^{i+1}_v$ 结点来自

hi+2thti+2 $h^{i+2}_t$ 的损失值，

Ei+2t+1Et+1i+2 $E^{i+2}_{t+1}$ 表示它来自

hi+2t+1ht+1i+2 $h^{i+2}_{t+1}$ 的损失值。注意，

∂Etotal∂(hi+2tnet)∂Etotal∂(hti+2net) $\frac{\partial E_{total}}{\partial ({h^{i+2}_t}_{net})}$ 在误差反向传播到

i+1i+1 $i+1$ 层的时候，就已经被计算出来并且保存为

δi+2tδti+2 $\delta^{i+2}_t$ 了。
第二项：

∂(hi+1vout)∂(hi+1vnet)=f′(hi+1v)∂(hvi+1out)∂(hvi+1net)=f′(hvi+1) $\frac{\partial ({h^{i+1}_v}_{out})}{\partial ({h^{i+1}_v}_{net})}=f'(h^{i+1}_v)$
这里，对于一个结点而言，它的净输入（线性加权总和）经过激励函数

ff $f$ 后即可以得到它的输出，于是这个导函数即为激励函数的导数。综合上述的第一项和第二项，我们可以看到相邻两层的

δ

$\delta$ 值有如下关系式：

δi+1v=(∑δi+2twv−t)⋅f′(hi+1v)δvi+1=(∑δti+2wv−t)⋅f′(hvi+1) $\delta^{i+1}_v=(\sum\delta^{i+2}_tw_{v-t})\cdot f'(h^{i+1}_v)$ ，这里的

(∑δi+2twv−t)(∑δti+2wv−t) $(\sum\delta^{i+2}_tw_{v-t})$ 也就是我们所谓的

errori+2terrorti+2 $error^{i+2}_t$ 。神经网络输出层的

errorerror $error$ 值就是真实值和预测值的误差。
第三项：

∂(hi+1vnet)∂w1=∂(hiuout⋅w1+hiu+1out⋅w1+bi)∂w1=hiuout∂(hvi+1net)∂w1=∂(huiout⋅w1+hu+1iout⋅w1+bi)∂w1=huiout $\frac{\partial ({h^{i+1}_v}_{net})}{\partial w_1}=\frac{\partial ({h^{i}_u}_{out}\cdot w_1+{h^{i}_{u+1}}_{out}\cdot w_1+b^i)}{\partial w_1}={h^{i}_u}_{out}$
这里，一个结点的线性加权总和对于它某个参数

ww $w$ 的导数值为上层某一个结点的输出，而这个输出在前向传播过程就被计算出来了。
综上所述：

\frac{\partial E_{t o t a l}}{\partial w_{1}} = (\sum δ_{t}^{i + 2} w_{v - t}) \cdot f^{'} (h_{v}^{i + 1}) \cdot {h_{u}^{i}}_{o u t} = δ_{v}^{i + 1} \cdot {h_{u}^{i}}_{o u t}

$\frac{\partial E_{total}}{\partial w_1}=(\sum\delta^{i+2}_tw_{v-t})\cdot f'(h^{i+1}_v)\cdot{h^{i}_u}_{out}=\delta^{i+1}_v\cdot {h^{i}_u}_{out}$
小结一下，