第一天是讲述LSTM大概的理论知识,知识是源自于B站李沐老师的讲解。下面我简单的总结一下LSTM的核心,因为文字不擅长表达过于细节的东西,如果有想深入了解LSTM的全部可以去B站搜索相关的视频讲解。
一、
LSTM具有很强的前后关联性,我们可以把整一个框架分成多个相同的结构通过串联组合而成,通过利用前一个结构输出的H来影响当前结构的参数的运算,F表达的是前面结构学习的东西,I 可以理解为控制当前结构学习的参数
二、
叫做候选记忆单元,可以理解为当前结构的学习到的东西
三、
接下来是总的记忆单元组成,F是用来控制前面结构已经学习到的东西的权重,I是用来控制当前结构所学习的候选单元的权重,如果前面学习到的东西重要则F会比较大,如果当前候选单元学习到的东西有用就I比较大,反之则以,这些参数都是通过不断的迭代来更新学习。上一个的C(t-1)是前一个结构传递的记忆单元,数值会比较大,H(t-1)是前一个记忆单元经过缩放来影响当前结构的参数,两者是具有很深关联的。
四、
H(t)是经过当前记忆单元的内容经过tanh缩放到1和-1间再点乘一个权重来进行输出,李沐老师解释了为什么要加多一个tanh,因为C(t)的计算中和C(t-1)都是已经经过tanh缩放到-1和1之间,I和F也是基于1和-1之间,所以最后的C 的取值范围是-2到2之间。需要通过tanh进行一次缩放。这个网络架构具有很深的前后记忆,但是里面又加入大量权重来防止依赖学习。
五、
LSTM通过多个相同结构组成的长短时记忆网络,C和H初始是为0,其他初始不为0
LSTM的核心内容大概就是这样了,如果博文有误还请大佬批评指正
希望这篇博文对你有帮助!!!