深度学习入门笔记（八）可以不断思考的模型：RNN与LSTM

最新推荐文章于 2026-06-20 21:38:09 发布

原创最新推荐文章于 2026-06-20 21:38:09 发布 · 556 阅读

·

1

·

标签

#深度学习 #rnn #笔记

深度学习笔记专栏收录该内容

11 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了循环神经网络RNN的基本结构、变体双向RNN和深度RNN，探讨了RNN的梯度消失与爆炸问题。接着详细讲解了长短期记忆网络LSTM的工作原理，包括遗忘门、输入门、更新门和输出门，以及其优缺点。最后提到了LSTM在实际应用中的局限性和被Transformer取代的趋势。

8.1 循环神经网络RNN

之前学到的 CNN 和全连接，模型的输入数据之间是没有关联的，比如图像分类，每次输入的图片与图片之间就没有任何关系，上一张图片的内容不会影响到下一张图片的结果。但在自然语言处理领域，这就成了一个短板。

RNN因此出现，它是一类用于处理序列数据的神经网络。其基本单元结构如下
在这里插入图片描述
自底向上的三个蓝色的节点分别是输入层、隐藏层和输出层。U 和 V 分别是连接两个层的权重矩阵。如果不考虑右边的棕色环路的话，就是一个典型的全连接的网络。

将上面的环路展开，如下
在这里插入图片描述
含义为：在 t 时刻，网络接受输入 Xt 和来自 t-1 时刻的隐藏层状态 St-1，并产生一个 t 时刻的隐藏层状态 St，以及 t 时刻的输出 Ot。其公式化的表示为：

其中 g 和 f 是各自节点的激活函数。这里面需要注意的一点是，对于每一个时间 t，U、V、W 都是同一个，这非常类似上一章讲到的权值共享。

RNN 的权值共

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zhanghui_cuc 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。