循环神经网络（一般RNN）推导

最新推荐文章于 2026-05-09 08:33:15 发布

原创最新推荐文章于 2026-05-09 08:33:15 发布 · 1.7w 阅读

31 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#神经网络

机器学习同时被 3 个专栏收录

7 篇文章

订阅专栏

nlp

7 篇文章

订阅专栏

深度学习

4 篇文章

订阅专栏

本文详细介绍了Vanilla RNN的工作原理及实现细节，包括前向传播、反向传播及梯度消失等问题。

本文章的例子来自于WILDML

vanillaRNN是相比于LSTMs和GRUs简单的循环神经网络，可以说是最简单的RNN。

RNN结构

RNN的一个特点是所有的隐层共享参数 $(U, V, W)$ ，整个网络只用这一套参数。

RNN前向传导

$s_t=tanh(Ux_t+Ws_{t-1})$
$o_t=softmax(Vs_t)$

$s_t$ 为 $t$ 时刻隐层的状态值，为向量。
$o_t$ 为 $t$ 时刻输出的值（这里是输入一个 $x_t$ 就有一个输出 $o_t$ ，这个是不必要的，也可以在全部x输入完之后开始输出，根据具体应用来设计模型）

本文例子介绍：RNN语言模型

关于语言模型的介绍就不说了，是NLP基础。这里只说说输入和输出的内容。

语言模型的生成属于无监督学习，只需要大量的文本即可生成。我们只需要做的是构造训练数据。

构造过程：
1. 生成词典vocab。（分词、去掉低频词）
2. 将语料中的句子转为word_id序列，并在头尾加上开始和结束id。
3. 生成训练数据：对于每个句子，输入为前len(sent)-1的序列，输出为后len(sent)-1的序列（也就是输入一个词就预测下一个词）

如，“我在沙滩上玩耍”输入的向量为 $[0, 5, 85, 485, 416, 55]$ ，输出的向量为 $[5, 85, 485, 416, 55, 1]$

假设我们的词汇有8000个，采用one-hot向量，则每个输入 $x_t$ 为8000维，对应的位置为1，其他为0。隐层设置100个神经元。
则列出网络所有参数和输入输出的shape，方便推导：
$x_t \in \Bbb R^{8000}$
$o_t \in \Bbb R^{8000}$
$s_t \in \Bbb R^{100}$
$U \in \Bbb R^{100\times 8000}$
$V \in \Bbb R^{8000\times 100}$
$W \in \Bbb R^{100\times 100}$

总参数量为 $2HC+H^2$ ，即1,610,000。

损失函数（loss function）采用交叉熵：
$E_t(y_t,\hat y_t)=-y_tlog\hat y_t$
$E(y,\hat y)=\sum_tE_t(y_t,\hat y_t)=-\sum_ty_tlog\hat y_t$
其中 $y_t$ 为t时刻正确的词语， $\hat y_t$ 为t时刻预测的词语。

反向传播

反向传播目的就是求预测误差 $E$ 关于所有参数 $(U,V,W)$ 的梯度，即 $\partial E \over \partial U$ 、 $\partial E \over \partial V$ 和 $\partial E \over \partial W$ 。

如下图所示，每个时刻t预测的词都有相应的误差，我们需要求这些误差关于参数的所有梯度，最后进行参数的下降调整操作（由于目标是降低Loss function，所以是梯度下降，如果是目标是最大似然，则为梯度上升）。
误差生成

我们这里以计算 $E_3$ 关于参数的梯度为例（其他 $E_t$ 都需要计算）：

\partial E 3 \partial V = \partial E 3 \partial y ^ 3 \partial y ^ 3 \partial V = \partial E 3 \partial y ^ 3 \partial y ^ 3 \partial z 3 \partial z 3 \partial V = (y^3 - y 3) \times s 3

$\begin{align} {\partial E_3 \over \partial V} &={\partial E_3 \over \partial \hat y_3}{\partial \hat y_3 \over \partial V} \\ &={\partial E_3 \over \partial \hat y_3}{\partial \hat y_3 \over \partial z_3}{\partial z_3 \over \partial V} \\ &=(\hat y_3-y_3) \times s_3 \end{align}$
为8000x100的向量，其中

z3=Vs3 $z_3=Vs_3$ ，用到了softmax的求导公式。

可见关于V的梯度用不到上一层的状态值，所以不需要累计。

BPTT（Backpropagation Through Time）

下面来求解关于W的梯度：
${\partial E_3 \over \partial W}={\partial E_3 \over \partial \hat y_3}{\partial \hat y_3 \over \partial s_3}{\partial s_3\over \partial W}$

由于 $s_3=tanh(Ux_3+Ws_2)$ 依赖 $s_2$ ，而 $s_2$ 依赖 $W$ 和 $s_1$ ，以此类推。
下图为链式关系：

所以，

\partial E 3 \partial W = \sum k = 0 3 \partial E 3 \partial y ^ 3 \partial y ^ 3 \partial s 3 \partial s 3 \partial s k \partial s k \partial W

${\partial E_3 \over \partial W}=\sum_{k=0}^3{\partial E_3 \over \partial \hat y_3}{\partial \hat y_3 \over \partial s_3}{\partial s_3\over \partial s_k}{\partial s_k\over \partial W}$

可见由于W在所有隐层中共享，许多变量都依赖W，导致求导链变长，这就是BPTT的特点，将每层的影响都累计起来。

下图为各链接之间的导数，在所有层中不会改变，也体现了传播的路径。
误差传导

跟一般的反向传播一样，这里也定义一个Delta 向量：
$\delta_2^{(3)}={\partial E_3\over \partial s_3}{\partial s_3\over \partial s_2}{\partial s_2\over \partial z_2}$
其中 $z_2=Ux_2+Ws_1$ ，在本例子中为一个100x1的向量。

所以 ${\partial E_3 \over \partial W}$ 可以写成：

\partial E 3 \partial W = \sum k = 0 3 δ (3) k \partial z k \partial W

${\partial E_3 \over \partial W}=\sum_{k=0}^3\delta_k^{(3)}{\partial z_k \over \partial W}$
为100x100的矩阵。

同理 ${\partial E_3 \over \partial U}$ 可以写成：

\partial E 3 \partial U = \sum k = 0 3 δ (3) k \partial z k \partial U

${\partial E_3 \over \partial U}=\sum_{k=0}^3\delta_k^{(3)}{\partial z_k \over \partial U}$
为100x8000的矩阵。

至此，关于 $(U,V,W)$ 的梯度都求解完毕。

下面，用代码来解释这个过程会更加清晰明了：

def bptt(self, x, y):
    T = len(y)
    # Perform forward propagation
    o, s = self.forward_propagation(x)
    # We accumulate the gradients in these variables
    dLdU = np.zeros(self.U.shape)
    dLdV = np.zeros(self.V.shape)
    dLdW = np.zeros(self.W.shape)
    delta_o = o
    delta_o[np.arange(len(y)), y] -= 1.
    # For each output backwards...
    for t in np.arange(T)[::-1]:
        dLdV += np.outer(delta_o[t], s[t].T)
        # Initial delta calculation: dL/dz
        delta_t = self.V.T.dot(delta_o[t]) * (1 - (s[t] ** 2))
        # Backpropagation through time (for at most self.bptt_truncate steps)
        for bptt_step in np.arange(max(0, t-self.bptt_truncate), t+1)[::-1]:
            # print "Backpropagation step t=%d bptt step=%d " % (t, bptt_step)
            # Add to gradients at each previous step
            dLdW += np.outer(delta_t, s[bptt_step-1])              
            dLdU[:,x[bptt_step]] += delta_t
            # Update delta for next step dL/dz at t-1
            delta_t = self.W.T.dot(delta_t) * (1 - s[bptt_step-1] ** 2)
    return [dLdU, dLdV, dLdW]

delta_o为 $(y-\hat y)\in \Bbb R^{T\times 8000}$
从T-1时刻开始计算直到0时刻。

梯度消失问题

tanh函数及其导数的图像：

可见tanh导数的值域是(0,1]，两端都非常平缓并趋于0。
再看我们的梯度公式：

\partial E 3 \partial W = \sum k = 0 3 \partial E 3 \partial y ^ 3 \partial y ^ 3 \partial s 3 (\prod j = k + 1 3 \partial s j \partial s j - 1) \partial s k \partial W

${\partial E_3 \over \partial W}=\sum_{k=0}^3{\partial E_3 \over \partial \hat y_3}{\partial \hat y_3 \over \partial s_3}(\prod_{j=k+1}^3{\partial s_j \over \partial s_{j-1}}){\partial s_k\over \partial W}$

$\partial s_k \over \partial s_{k-1}$ 用的就是tanh导数，在训练的后期，梯度会变得比较小，如果几个趋于0的值相乘的话，乘积就会变得非常小，就会出现梯度消失现象。同样的情况也会出现在sigmoid函数。
由于远距离的时刻的梯度贡献接近于0，因此很难学习到远距离的依赖关系。