LSTM：长短期记忆网络的原理、演进与应用

最新推荐文章于 2026-06-18 14:16:48 发布

原创最新推荐文章于 2026-06-18 14:16:48 发布 · 1.5k 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#lstm #人工智能 #RNN #神经网络 #长序列

人工智能同时被 3 个专栏收录

385 篇文章

订阅专栏

Python

352 篇文章

订阅专栏

模型 & 框架

90 篇文章

订阅专栏

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 概述：什么是LSTM？

长短期记忆网络（Long Short-Term Memory，LSTM）是一种特殊的循环神经网络（RNN），由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年提出。它被设计用来解决传统 RNN 在处理长序列数据时遇到的梯度消失和梯度爆炸问题。LSTM 通过引入“门控机制”和“细胞状态”来有效地捕捉时间序列中的长期依赖关系，使其在语音识别、自然语言处理、时间序列预测等领域表现出色。

LSTM 的核心思想是引入一个细胞状态（Cell State），并通过三个门控结构（输入门、遗忘门、输出门）来调节信息的流动。这些门控结构允许 LSTM 选择性地记住或忘记信息，从而更好地捕捉长期依赖关系。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

2 LSTM 的基本原理

2.1 传统RNN的局限性

传统的RNN通过其循环结构处理序列数据，但它们在处理长序列时容易出现梯度消失或梯度爆炸的问题。这是因为在误差反向传播过程中，梯度会随着时间步的增加而指数级地缩小或放大，导致模型难以学习长期依赖关系。

2.2 LSTM的解决方案

LSTM 通过引入细胞状态（Cell State） 和门控机制（Gating Mechanism） 来解决传统RNN的局限性。细胞状态充当“记忆单元”，在整个序列处理过程中传递信息，而门控机制则调节信息流入和流出细胞状态。

LSTM 单元的主要组成部分包括：

遗忘门（Forget Gate）：决定哪些信息应该从细胞状态中丢弃。它通过一个 Sigmoid 函数来输出一个0到1之间的值，0表示“完全遗忘”，1表示“完全保留”。
输入门（Input Gate）：决定哪些新信息应该被存储到细胞状态中。它包含一个 Sigmoid 函数和一个 Tanh 函数，Sigmoid 函数决定哪些值需要更新，Tanh 函数生成新的候选值。
细胞状态（Cell State）：是LSTM的“记忆”，在整个序列处理过程中传递信息。它通过遗忘门和输入门的输出进行更新。
输出门（Output Gate）：决定基于当前细胞状态的输出。它通过一个 Sigmoid 函数决定哪些部分应该输出，然后与经过 Tanh 函数处理的细胞状态相乘，得到最终的输出。

下图直观展示了LSTM单元的结构：

graph LR
  A[输入 xₜ] --> B[遗忘门<br>sigmoid]
  A --> C[输入门<br>sigmoid]
  A --> D[输出门<br>sigmoid]
  A --> E[候选状态<br>tanh]

  F[先前隐藏状态 hₜ₋₁] --> B
  F --> C
  F --> D
  F --> E

  G[先前细胞状态 cₜ₋₁] --> B
  B --> H[计算新细胞状态 cₜ]
  C --> H
  E --> H

  H --> I[新细胞状态 cₜ]
  I --> D
  D --> J[输出 hₜ]

3 原始论文及其作者

LSTM 的原始论文由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年发表，标题为 《Long Short-Term Memory》，发表在《Neural Computation》期刊上。

原始论文出处：
- 标题: Long Short-Term Memory
- 作者: Sepp Hochreiter and Jürgen Schmidhuber
- 期刊: Neural Computation
- 年份: 1997
- 卷期: 9(8): 1735–1780
- DOI: https://doi.org/10.1162/neco.1997.9.8.1735
- 可访问地址: http://www.bioinf.jku.at/publications/older/2604.pdf

这篇论文首次提出了 LSTM 的概念，并详细介绍了其结构和训练方法。Hochreiter 和 Schmidhuber 的工作被认为是深度学习领域的里程碑之一，为后续的序列建模研究奠定了坚实的基础 📚。

4 LSTM 的演进与变体

4.1 门控循环单元（GRU）

门控循环单元（Gated Recurrent Unit，GRU）是 LSTM 的一种简化变体，由 Kyunghyun Cho 等人于 2014 年提出。GRU 将遗忘门和输入门合并为一个“更新门”，并减少了细胞状态的数量，从而降低了计算复杂度，但在许多任务上仍能达到与 LSTM 相当的性能。