目录
编辑
1.长短期记忆网络介绍
2.网络结构
3.模型工作示例
1.长短期记忆网络介绍
在传统的循环神经网络(RNN)中,神经网络通过循环结构处理序列数据,但存在一个严重的问题:梯度消失和梯度爆炸。这意味着网络很难学习到长期依赖关系,即在序列中相隔较远的事件之间的关系。
2.网络结构
LSTM的核心是其单元结构,每个单元都包含三个门:遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate),以及一个细胞状态(Cell State)。
1. 遗忘门(Forget Gate)
遗忘门的作用是决定哪些信息需要从细胞状态中丢弃。遗忘门会读取上一个时间步的细胞状态和当前时间步的输入,然后输出一个介于0和1之间的值,表示保留信息的程度。
2. 输入门(Input Gate)
输入门的作用是决定哪些新信息需要加入细胞状态。它有两个部分:一是决定哪些值需要更新,二是生成新的候选值。输入门会读取上一个时间步的细胞状态和当前时间步的输入,然后输出一个介于0和1之间的值,表示新信息的权重。
3. 输出门(Output Gate)
输出门的作用是决定哪些细胞状态的信息会被输出。它会读取当前时间步的细胞状态,然后输出一个介于0和1之间的值,表示输出信息的程度。
4. 细胞状态(Cell State)
细胞状态是LSTM的核心,它携带了序列中长期依赖的信息。细胞状态会随着时间步的推进而更新,遗忘门和输入门共同决定了细胞状态的变化。
单元结构:LSTM的单元结构可以看作是一个小的“记忆块”,每个记忆块会根据当前的输入和之前的状态来更新自己的状态,并输出当前的预测结果。这些记忆块会串联起来,形成一个序列,从而处理整个时间序列数据。
3.模型工作示例
例如我们想要预测某一天的天气情况,往往需要考虑前几天的天气状况,但是传统的神经网络在处理这种序列数据时会遇到“梯度消失”或“梯度爆炸”的问题,导致网络难以学习到长期依赖关系。
一次需要引入LSTM来联系之前的天气情况。
之前的天气有的对预测当天的天气有影响,这些就会通过输入门输入,某些天对预测当天的天气无影响就通过遗忘门丢弃。
在这个天气预测的例子中,LSTM会根据过去几天的天气情况,通过门控机制记住重要的信息(比如连续几天的天气模式),忽略不重要的信息(比如短期的异常天气),从而更准确地预测后续的天气情况。