PyTorch 学习笔记（十一）：循环神经网络（RNN）

最新推荐文章于 2026-05-02 20:15:30 发布

原创

最新推荐文章于 2026-05-02 20:15:30 发布 · 4.8k 阅读

标签

对于人类而言，以前见过的事物会在脑海中留下记忆，虽然随后记忆会慢慢消失，但是每当经过提醒，人们往往可以重拾记忆。在神经网络中也是一样，之前介绍的CNN模型都是与时间序列无关的模型，它有明显的局限性，就是只能单独的取处理一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。所以接下来要介绍一种在序列问题和自然语言处理等领域取得很大成功的模型——循环神经网络。

一. 循环神经网络（RNN）

具体来讲，卷积神经网络相当于人类的视觉，但是它没有记忆能力，所以它只能处理一种特定的视觉任务，没办法根据以前的以及来处理新的任务。那么记忆力对于网络而言到底是不是必要的呢？我们可以考虑这样一个场景，在一场电影中推断下一个时间点的场景，这个时候仅依赖于现在的情景并不够，需要依赖于前面发生的情节。对于这样一些不仅依赖于当前情况，还依赖于过去情况的问题，传统的神经网络结构无法很好的处理，所以基于记忆的网络模型是必不可少的。循环神经网络的提出便是基于记忆模型的想法，期望网络能够记住前面出现的特征，并依据特征推断后面的结果，而且整体的网络结构不断循环，因此得名为循环神经网络。

1.1 循环神经网络的基本结构

循环神经网络的基本结构非常简单，就是将网络的输出保存在一个记忆单元中，这个记忆单元和下一次的输入一起进入神经网络中。使用一个简单的两层网络作为示范，在它的基础上扩充为循环神经网络的结构，我们用下图简单表示：
在这里插入图片描述

第一次看到的时候肯定是一脸懵逼，静下心来看看，其实也是很好理解的。如果把上面有W的那个带箭头的圈去掉，它就变成了最普通的全连接神经网络。x是一个向量，它表示输入层的值（这里面没有画出来表示神经元节点的圆圈）；s是一个向量，它表示隐藏层的值（这里隐藏层面画了一个节点，你也可以想象这一层其实是多个节点，节点数与向量s的维度相同）；U是输入层到隐藏层的权重矩阵；o也是一个向量，它表示输出层的值；V是隐藏层到输出层的权重矩阵。那么，现在我们来看看W是什么。循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x，还取决于上一次隐藏层的值s。权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重。

如果我们把上面的图展开，循环神经网络也可以画成下面这个样子：
在这里插入图片描述现在看上去就比较清楚了，这个网络在 t 时刻接收到输入 $x_{t}$ 之后，隐藏层的值是 $s_{t}$ ，输出值是 $o_{t}$ 。关键一点是 $s_{t}$ 的值不仅仅取决于 $x_{t}$ ，还取决于 $s_{t-1}$ 。我们可以用下面的公式来表示循环神经网络的计算方法：

$o_{t}=g(Vs_{t})$ （式1）
$s_{t}=f(Ux_{t}+Ws_{t-1})$ （式2）

式1是输出层的计算公式，输出层是一个全连接层，也就是它的每个节点都和隐藏层的每个节点相连。V是输出层的权重矩阵，g是激活函数。式2是隐藏层的计算公式，它是循环层。U是输入x的权重矩阵，W是上一次的值作为这一次的输入的权重矩阵，f是激活函数。从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

可以看到网络在输入的时候会联合记忆单元s一起作为输入，网络不仅输出结果，还会将结果保存到记忆单元中。当输入序列的顺序发生改变，网络的输出结果就会变化，这是因为记忆单元的存在，使得两个序列在顺序改变之后记忆单元中的元素也改变了，所以会影响最后的输出结果。

那么RNN到底是如何将整个序列传入网络呢？其实只需要将序列中的每个数据点 $x_{t-1}、x_{t}......$ 依次传入网络即可！无论序列多长，都能不断输入网络，最终得到结果。可能看到这里，大家不禁想问上图中的每个子结构是不是都是独立的权重？答案是不是的，这里各个子结构可以其实是一个共用的结构，使用了参数共享的概念。

当然了循环神经网络也可以有比较深的网络层结构，比如下图：
在这里插入图片描述
同时我们可以发现上面的网络都是单向的，这代表网络只能知道单侧的信息，有的时候序列的信息不只是单边有用，双边的信息对预测结果也很重要，比如语音信号，这时候就需要看到两侧信息的网络结构。这并不需要用两个循环神经网络分别从左右两边开始读取序列输入，使用一个双向的循环神经网络就可以完成这个任务，如下图：
在这里插入图片描述从上图可以看出来，双向卷积神经网络的隐藏层要保存两个值，一个A参与正向计算，另一个值 $A′A^{'}$ 参与反向计算。最终 $y_{2}$ 的输出值由 $A_{2}$ 和 $A2′A_{2}^{'}$ 决定，其计算方法为： $y2=g(VA2+V′A2′)y_{2}=g(VA_{2}+V^{'}A_{2}^{'})$

最低0.47元/天解锁文章