深度学习:循环神经网络 --- LSTM网络原理

embedded/2024/10/17 18:58:24/

LSTM网络的介绍

        循环神经网络(Recurrent Neural Networks,RNN)是一种用于处理序列数据的神经网络,它能够处理任意长度的序列,并且能够保持对之前数据的记忆。LSTM(Long Short-Term Memory)网络是RNN的一种特殊类型,它在处理长序列数据时表现更为出色,因为它能够学习到长期依赖关系。

        LSTM (长短时记忆网络)或 GRU(门控循环单元)就是如此,它们可以学习只保留相关信息来进行预测,并忘记不相关的数据。简单说,因记忆能力有限,记住重要的,忘记无关紧要的。LSTM 和 GRU 是解决短时记忆问题的解决方案,它们具有称为“门”的内部机制,可以调节信息流。

RNN网络的结构

第一个词被转换成了机器可读的向量,然后 RNN 逐个处理向量序列。

LSTM 有3种类型的门结构:

遗忘门(Forget Gate)

功能:决定应丢弃哪些关键词信息。

步骤:遗忘门的目的是决定哪些信息应该从细胞状态中被遗忘或保留。它通过以下步骤工作:

  1. 输入:遗忘门接收前一个时间步的输出(隐藏状态)ht−1和当前时间步的输入 xt。

  2. 合并:将这两个输入合并成一个向量。

  3. sigmoid 函数:将合并后的向量通过sigmoid函数,输出一个介于0和1之间的值。这个值决定了细胞状态中每个单元格的遗忘程度。

  4. 遗忘操作:将前一个细胞状态 Ct−1​ 与sigmoid函数的输出相乘。接近0的值意味着这部分信息将被遗忘,而接近1的值意味着这部分信息将被保留。

输入门(Input Gate)

功能:用于更新细胞状态。

步骤:输入门负责决定哪些新信息将被存储在细胞状态中。它包括两个主要部分:sigmoid层和tanh层。

  1. 输入:输入门同样接收前一个时间步的隐藏状态 ht−1​ 和当前时间步的输入 xt。

  2. sigmoid 函数:首先,将输入合并并通过一个sigmoid函数,这个函数决定哪些值需要更新。

  3. tanh 函数:同时,将相同的输入合并并通过一个tanh函数,生成一个新的候选值向量。这个向量的值介于-1和1之间,表示可能被加入到细胞状态的新信息。

  4. 更新细胞状态:将sigmoid函数的输出(决定更新的部分)与tanh函数的输出(候选值)相乘,然后将这个结果加到通过遗忘门更新的细胞状态上。

输出门(Output Gate)

功能:用来确定下一个隐藏状态的值。

步骤:输出门决定细胞状态中的哪些信息将被输出到下一层或作为序列的预测输出。

  1. 输入:输出门接收前一个时间步的隐藏状态 ht−1​ 和当前时间步的输入 xt​。

  2. 合并:将这两个输入合并成一个向量。

  3. sigmoid 函数:将合并后的向量通过sigmoid函数,输出一个介于0和1之间的值。这个值决定了细胞状态中每个单元格的输出程度。

  4. tanh 函数:同时,将当前的细胞状态 Ct 通过一个tanh函数,这个函数将细胞状态的值标准化到-1和1之间。

  5. 输出:将sigmoid函数的输出(决定输出的部分)与tanh函数的输出(当前细胞状态的标准化值)相乘,得到最终的隐藏状态 ht,这个隐藏状态可以作为输出或传递到下一个LSTM单元。

这三个门的协同工作使得LSTM网络能够捕捉长期依赖关系,并在处理序列数据时表现出色。


http://www.ppmy.cn/embedded/128240.html

相关文章

字符串(3)_二进制求和_高精度加法

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 字符串(3)_二进制求和_高精度加法 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记,欢迎大家在评论区交流讨论💌 目…

Application independent protocol

14.3 应用程序选择程序 14.3.1 使用EFDIR文件的应用程序选择 使用EFDIR文件的应用程序选择是终端读取EFDIR文件内容,并向用户展示应用程序列表的过程,用户可以选择一个或多个应用程序进行激活。 终端执行读取EFDIR的操作,并向用户展示它支持的…

Attention Is All You Need论文翻译

论文名称 注意力即是全部 论文地址 https://user.phil.hhu.de/~cwurm/wp-content/uploads/2020/01/7181-attention-is-all-you-need.pdf 摘要 主流的序列转导模型基于复杂的递归或卷积神经网络,这些网络包含编码器和解码器。性能最好的模型通过注意力机制将编码器和…

SpringMVC后台控制端校验-表单验证深度分析与实战优化

前言 在实战开发中,数据校验也是十分重要的环节之一,数据校验大体分为三部分: 前端校验后端校验数据库校验 本文讲解如何在后端控制端进行表单校验的工作 案例实现 在进行项目开发的时候,前端(jquery-validate),后端,数据库都要进行相关的数据…

LabVIEW提高开发效率技巧----事件触发模式

事件触发模式在LabVIEW开发中是一种常见且有效的编程方法,适用于需要动态响应外部或内部信号的场景。通过事件结构(Event Structure)和用户自定义事件(User Events),开发者可以设计出高效的事件驱动程序&am…

信息学交互题的写法和注意事项总结

信息学交互题的写法和注意事项总结: 1. 题目分析 交互题要求选手与“裁判”进行多次输入输出的交互,通常以多轮交互实现问题的解决。题目的核心在于:如何通过“询问”或“操作”逐步推导出答案或实现目标。 2. 写法要点 输入输出模式&…

DS树与二叉树(8)

文章目录 前言一、树树的概念树的相关概念树的存储树的实际运用 二、二叉树二叉树的概念现实中的二叉树特殊的二叉树二叉树的性质二叉树的存储结构顺序存储链式结构 二叉树的意义 三、二叉树的相关习题总结 前言 脱离了线性表后,我们又迎来了新的篇   正文开始&am…

SeaTunnel 本地部署

SeaTunnel简介:Apache SeaTunnel 介绍-CSDN博客 部署 准备工作​ 在开始本地运行前,您需要确保您已经安装了SeaTunnel所需要的以下软件: 安装Java (Java 8 或 11, 其他高于Java 8的版本理论上也可以工作) 以及设置 JAVA_HOME。…