什么是长短期记忆网络(LSTM)

AI解读 2年前 (2024) 硕雀
196 0

长短期记忆网络LSTM)详解

长短期记忆网络(Long Short-Term Memory,简称 LSTM)是一种专门用于处理序列数据的循环神经网络RNN‍结构。它由Hochreiter 和 Schmidhuber在1997年提出。LSTM 的核心优势在于解决了传统 RNN 的长期依赖问题,即能够记住并有效利用序列中时间跨度较长的信息,广泛应用于语音识别机器翻译、文本生成等领域。


1. 背景与动机:为何需要 LSTM?

传统的 RNN 虽然能够处理序列数据,但在面对较长的序列时会遇到梯度消失梯度爆炸的问题,导致网络无法学习到序列前后之间的长期关系(Long-Term Dependencies)。

LSTM 的诞生就是为了解决这个难题。它通过设计一种特殊的“记事本”结构,来控制信息的“写入”和“遗忘”,从而实现对长期记忆的保留和对短期信息的更新。


2. 核心结构:门控机制(Gates)

LSTM 的名字来源于它的记忆单元(Cell State)‍和门控机制(Gates)‍。每个 LSTM 单元(Cell)主要由以下三个门组成:

  1. 遗忘门(Forget Gate)‍:
    • 作用:决定保留多少旧的记忆。
    • 工作原理:根据当前输入  和前一时刻的隐藏状态 ,输出一个介于 0 和 1 之间的数值。如果输出接近 0,意味着“忘记”该信息;如果接近 1,则“保留”该信息。
  2. 输入门(Input Gate)‍:
    • 作用:决定写入多少新信息。
    • 工作原理:由两部分组成:
      • 输入门层:决定哪些新信息需要更新。
      • 候选层(Cell Candidate)‍:生成新的候选记忆内容。
    • 两者相乘后,得到最终需要写入记忆单元的内容。
  3. 输出门(Output Gate)‍:
    • 作用:决定输出多少记忆。
    • 工作原理:根据当前输入  和隐藏状态  计算,控制当前 LSTM 单元对外输出的值,同时也决定隐藏状态  的值。

3. 工作流程:记事本的类比

可以把 LSTM 想象成一个带有三扇门的记事本

  • 长期记忆(Cell State,记事本内容)‍:这是一条贯穿整个序列的传送带,携带着信息沿时间轴向前传递。
  • 短期记忆(Hidden State,当前记事本页)‍:存放当前时刻的输出内容,携带着从记事本里提取的关键信息传递给下一个 LSTM 单元。

在每一个时间步 ,LSTM 单元都会执行以下步骤:

  1. 决定遗忘(Forget)‍:根据遗忘门的指令,清除记事本中不再需要的旧信息。
  2. 决定记入(Input)‍:根据输入门的指令,将新信息写入记事本。
  3. 产生输出(Output)‍:根据输出门的指令,从记事本中提取关键信息,作为当前时刻的输出。

4. 关键特点与优势

  1. 解决长期依赖问题:通过门控机制,LSTM 能够有效保留长期依赖信息,解决了 RNN 的梯度消失问题。
  2. 处理变长序列:能够处理长度不同的序列,如不同长度的句子或音频。
  3. 并行计算:虽然 LSTM 需要处理序列的时间步,但其内部计算(如矩阵乘法)可以利用 GPU 并行加速。

5. 变体与发展

除了标准的 LSTM,还有许多改进的变体:

  • GRUGated Recurrent Unit‍:一种简化版的 LSTM,只有重置门和更新门,参数更少,计算更快。
  • BiLSTM(双向 LSTM)‍:由两个 LSTM 组成,一个从前向后处理序列,另一个从后向前处理序列,能够利用“过去”和“未来”的信息。
  • 深层 LSTM:将多个 LSTM 层堆叠起来,提升模型的表达能力。

6. 典型应用场景

  • 自然语言处理NLP‍:机器翻译(Encoder-Decoder 架构)、文本生成、情感分析
  • 时间序列预测:股价预测、天气预报、工业监控数据分析。
  • 语音识别与合成:从音频信号中提取语音特征并生成文本。

7. 参考资料

  • 技术教程与原理
    • 《从零开始学神经网络——LSTM(长短期记忆网络)》
    • 《长短期记忆网络(LSTM)概述》
    • 《LSTM(长短期记忆网络)原理介绍》
  • 学术论文
    • Long Short-Term Memory (Sepp Hochreiter, Jürgen Schmidhuber, 1997)
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!