全连接与卷积神经网络反向传播公式推导

最新推荐文章于 2025-04-11 22:35:44 发布

原创

最新推荐文章于 2025-04-11 22:35:44 发布 · 740 阅读

标签

#1024程序员节 #深度学习

本文详细介绍了全连接与卷积神经网络的反向传播公式，通过推导展示了BP算法中关键的梯度计算过程，包括全连接网络的δ递推公式和矩阵形式，并简要提到了卷积网络的反向传播理论。

全连接与卷积神经网络反向传播公式推导

全连接网络反向传播公式

BP四项基本原则：

$\begin{aligned} \delta_i^{(L)} &= \bigtriangledown_{y_i} Cost \cdot \sigma'(logit_i^{(L)}) \\ \delta_i^{(l)} &= \sum_j \delta_j^{(l+1)} w_{ji}^{(l+1)} \sigma'(logit_i^{(l)}) \\ \frac{\partial Cost}{\partial bias_i^{(l)}} &= \delta_i^{(l)} \\ \frac{\partial Cost}{\partial w_{ij}^{(l)}} &= \delta_i^{(l)} h_j^{(l-1)} \end{aligned}$

其中， $(l)$ 表示第 $l$ 层，一共有L层， $i, j$ 表示当前层神经元的序号。

反向传播公式的目的主要是得到： $∂Cost∂biasi(l)\frac{\partial Cost}{\partial bias_i^{(l)}}$ 和 $∂Cost∂wij(l)\frac{\partial Cost}{\partial w_{ij}^{(l)}}$ 。

在推导的过程中

$\begin{aligned} \frac{\partial Cost}{\partial bias_i^{(l)}} &= \frac{\partial Cost}{\partial logit_i^{(l)}} \cdot \frac{\partial logit_i^{(l)}}{\partial bias_i^{(l)}} \\ \frac{\partial Cost}{\partial w_{ij}^{(l)}} &= \frac{\partial Cost}{\partial logit_i^{(l)}} \cdot \frac{\partial logit_i^{(l)}}{\partial w_{ij}^{(l)}} \end{aligned}$

会发现都要用到 $∂Cost∂logiti(l)\frac{\partial Cost}{\partial logit_i^{(l)}}$ 。

而

$logit_i^{(l)} = w_{ij}^{(l)} h_j^{(l)} + \sum_{k\ne j} w_{ik}^{(l)} h_{k}^{(l)} + bias_i^{(l)}$

所以

$\begin{aligned} \frac{\partial logit_i^{(l)}}{\partial bias_i^{(l)}} &= 1 \\ \frac{\partial logit_i^{(l)}}{\partial w_{ij}^{(l)}} &= h_j^{(l)} \end{aligned}$

那接下来的问题就只有求 $∂Cost∂logiti(l)\frac{\partial Cost}{\partial logit_i^{(l)}}$ 了，求它可以用递推法：

为公式看起来简洁，我们把 $∂Cost∂logiti(l)\frac{\partial Cost}{\partial logit_i^{(l)}}$ 记为 $δi(l)\delta_i^{(l)}$ ，那么

$\delta_i^{(l)} = \frac{\partial Cost}{\partial logit_i^{(l)}} = \sum_j \frac{\partial Cost}{\partial logit_j^{(l+1)}} \cdot \frac{\partial logit_j^{(l+1)}}{\partial logit_i^{(l)}} = \sum_j \delta_j^{(l+1)} \cdot \frac{\partial logit_j^{(l+1)}}{\partial logit_i^{(l)}}$

最低0.47元/天解锁文章