8.1 循环神经网络RNN
之前学到的 CNN 和全连接,模型的输入数据之间是没有关联的,比如图像分类,每次输入的图片与图片之间就没有任何关系,上一张图片的内容不会影响到下一张图片的结果。但在自然语言处理领域,这就成了一个短板。
RNN因此出现,它是一类用于处理序列数据的神经网络。其基本单元结构如下

自底向上的三个蓝色的节点分别是输入层、隐藏层和输出层。U 和 V 分别是连接两个层的权重矩阵。如果不考虑右边的棕色环路的话,就是一个典型的全连接的网络。
将上面的环路展开,如下

含义为:在 t 时刻,网络接受输入 Xt 和来自 t-1 时刻的隐藏层状态 St-1,并产生一个 t 时刻的隐藏层状态 St,以及 t 时刻的输出 Ot。其公式化的表示为:

其中 g 和 f 是各自节点的激活函数。这里面需要注意的一点是,对于每一个时间 t,U、V、W 都是同一个,这非常类似上一章讲到的权值共享。
RNN 的权值共
本文介绍了循环神经网络RNN的基本结构、变体双向RNN和深度RNN,探讨了RNN的梯度消失与爆炸问题。接着详细讲解了长短期记忆网络LSTM的工作原理,包括遗忘门、输入门、更新门和输出门,以及其优缺点。最后提到了LSTM在实际应用中的局限性和被Transformer取代的趋势。
订阅专栏 解锁全文
可以不断思考的模型:RNN与LSTM&spm=1001.2101.3001.5002&articleId=136080489&d=1&t=3&u=edaf4d4d480949a1a42566b193aad178)
14万+

被折叠的 条评论
为什么被折叠?



