LSTM基本介绍

前言

循环神经网络（RNN）存在的弊端：虽然在序列建模方面具有天然的架构优势，但其在实际训练过程中会面临显著的长期依赖衰减问题。具体表现为：当输入序列长度增加时，模型在反向传播过程中难以将梯度信号有效地回传到序列的早期时间步。

这一问题的根源在于RNN的梯度计算涉及权重矩阵的连续乘法。当序列较长时，这一连乘会导致梯度呈现指数级衰减（梯度消失）或爆炸（梯度爆炸）。梯度消失使得早期时间步的参数更新几乎为零，导致模型无法学习长距离的依赖关系。

LSTM的引进

长短期记忆网络（LSTM）的提出，直接源于解决RNN在训练过程中出现的梯度消失或梯度爆炸这一核心难题。该模型由Hochreiter和Schmidhuber在1997年发表，其设计初衷就是为了让RNN能够有效地学习长期依赖关系。通过引入精巧的门控机制（输入门、遗忘门、输出门），LSTM能够有选择地让信息在序列中传递，从而显著提升了模型处理长序列数据的能力。

基础结构

LSTM 通过引入特殊的记忆单元（Memory Cell)，能够有效提升模型对长序列依赖关系的建模能力。

图中可以看到四个连续的LSTM单元，每个单元接收当前时刻的输入（如x₁, x₂, …）和上一时刻传递来的两个状态：隐藏状态h和细胞状态c，并在内部处理后输出更新后的h和c，传递给下一时刻。

核心要点：

状态传递机制：LSTM通过两个状态在时间步间传递信息——隐藏状态h（通常用于当前时间步输出）和细胞状态c（作为内部记忆，负责长程信息保持）。
门控结构：每个LSTM单元内部包含三个门（输入门、遗忘门、输出门）正是这些门控制着信息的保留、遗忘与输出，这也是LSTM能够缓解梯度消失/爆炸问题的关键。
时间展开视图：这种“展开”示意图将循环结构按时间步展开，直观呈现序列数据（如文本、时间序列）在LSTM中逐步处理的过程。

通过这种结构，LSTM能够有选择地记住长期信息（如段落开头的关键语义）并忘记次要信息，因此在机器翻译、文本生成、语音识别等需要建模长距离依赖的任务中表现优于普通RNN。

Ø 记忆单元（Memory Cell）

图中那条橙黄色的水平通道（Ct−1→Ct），正是 LSTM 实现长期信息传递的关键——细胞状态。

它的运作可以理解为两条并行的信息流：

长期记忆流（橙黄色通道）细胞状态 Ct在时间步之间保持相对稳定的流动，它像一条“传送带”，能够跨越多步直接传递重要信息，而不易受到短期波动的干扰。这使得网络能够记住较早时间步的关键信息（例如句子的主语或段落主旨）。
短期记忆与交互流（绿色/蓝色通道）隐藏状态 ht和输入 xt参与每个时间步的具体计算，负责捕捉局部依赖和当前输入的影响。ht通常作为当前步的输出，也参与下一时间步的计算，形成短期信息的循环。

遗忘门（Forget Gate）

遗忘门的核心作用是决定从上一时间步的记忆单元 Ct-1 中保留多少信息。它通过一个 sigmoid 函数（图中紫色 σ 模块）生成一个介于 0 到 1 之间的控制系数 ft：