机器学习实战第一天：LSTM（长短时记忆网络）

ops/2025/1/23 17:18:08/

第一天是讲述LSTM大概的理论知识，知识是源自于B站李沐老师的讲解。下面我简单的总结一下LSTM的核心，因为文字不擅长表达过于细节的东西，如果有想深入了解LSTM的全部可以去B站搜索相关的视频讲解。

一、

LSTM具有很强的前后关联性，我们可以把整一个框架分成多个相同的结构通过串联组合而成，通过利用前一个结构输出的H来影响当前结构的参数的运算，F表达的是前面结构学习的东西，I 可以理解为控制当前结构学习的参数

二、

$\widetilde{C}$ 叫做候选记忆单元，可以理解为当前结构的学习到的东西

三、

接下来是总的记忆单元组成，F是用来控制前面结构已经学习到的东西的权重，I是用来控制当前结构所学习的候选单元的权重，如果前面学习到的东西重要则F会比较大，如果当前候选单元学习到的东西有用就I比较大，反之则以，这些参数都是通过不断的迭代来更新学习。上一个的C(t-1)是前一个结构传递的记忆单元，数值会比较大，H(t-1)是前一个记忆单元经过缩放来影响当前结构的参数，两者是具有很深关联的。

四、

H(t)是经过当前记忆单元的内容经过tanh缩放到1和-1间再点乘一个权重来进行输出，李沐老师解释了为什么要加多一个tanh，因为C(t)的计算中 $\widetilde{C}$ 和C(t-1)都是已经经过tanh缩放到-1和1之间，I和F也是基于1和-1之间，所以最后的C 的取值范围是-2到2之间。需要通过tanh进行一次缩放。这个网络架构具有很深的前后记忆，但是里面又加入大量权重来防止依赖学习。