【22-23 春学期】AI作业12-LSTM

news/2024/12/13 2:52:07/

网络 LSTM(输入门、遗忘门、输出门)

LSTM(长短时记忆网络)是一种特殊的RNN(循环神经网络),能够学习长期的依赖关系。它通过原始 RNN 的隐藏层只有一个状态,它对于短期的输入非常敏感。LSTM增加了一个保存长期的状态。

遗忘门(forget gate)决定了上一时刻的单元状态有多少保留到当前时刻。

输入门(input gate)决定了当前时刻网络的输入有多少保存到单元状态。

输出门(output gate)控制单元状态有多少输出到LSTM的当前输出值。

这些门都拥有三个全连接层网络,并使用sigmoid函数作为激活函数,最终的输出值都在区间(0,1)中

LSTM如何克服梯度消失

LSTM通过引入三个门机制,即遗忘门、输入门和输出门,使得网络的梯度可以更好地流动,从而克服了梯度消失问题。

具体来说,遗忘门控制之前的记忆是否需要保留下来,输入门控制新的输入数据对当前记忆的影响,输出门控制当前记忆对输出的影响。这些门机制可以通过非线性函数来控制信息的流动,从而实现对梯度的有效传递。

此外,LSTM还采用了循环连接的方式,在时间上对信息进行持久化处理,避免了信息的突然消失或累积问题,从而进一步提高了训练效果。在这里插入图片描述

门控循环单元神经网络 GRU(更新门、重置门)

门控循环单元神经网络(GRU)是一种用于处理时间序列数据的神经网络,它是一种改进的循环神经网络(RNN)结构,通过引入两个门控机制:更新门和重置门,来控制信息的流动和记忆的更新。

GRU中的更新门和重置门可以看做是一个对当前输入和上一时刻隐藏状态的加权平均,其中更新门控制了上一时刻隐藏状态的遗忘和当前输入的融合,而重置门则控制了当前输入和上一时刻隐藏状态的丢弃和保留。

具体来说,更新门和重置门都是一个0到1之间的值,它们通过S形函数来进行计算。当更新门的值接近1时,当前输入的信息会被大量保留,同时上一时刻的隐藏状态也会被相对保留;而当重置门的值接近0时,当前输入的信息会被大量丢弃,同时上一时刻的隐藏状态也会被相对遗忘。

通过这样的门控机制,GRU可以自适应地控制信息的流动和记忆的更新,从而更好地解决了长期依赖问题,并且相对于传统的RNN结构,它还能够更好地避免梯度消失和梯度爆炸问题,提高了模型的训练和预测性能。


http://www.ppmy.cn/news/109832.html

相关文章

Spring Cloud Alibaba - 服务注册与发现(Nacos)

✅作者简介:热爱Java后端开发的一名学习者,大家可以跟我一起讨论各种问题喔。 🍎个人主页:Hhzzy99 🍊个人信条:坚持就是胜利! 💞当前专栏:微服务 🥭本文内容&…

Maven jar 包下载失败问题处理【配置Maven国内源】

前言 很多同学在Maven里下载一些依赖的时候,即下载【jar 包】的时候总是会出现一些问题,这里专门做一个教程讲解一下 其实这和你的Maven配置是有关系的,因为Maven是一个国际站点,它的仓库是在国外的,所以我们有时候在下…

微服务架构之服务治理

单体应用改造为微服务架构后,服务调用由本地调用变成远程调用,服务消费者A需要通过注册中心去查询服务提供者B的地址,然后发起调用,这个看似简单的过程就可能会遇到下面几种情况,比如: 注册中心宕机&#x…

linux(SystemV标准)进程间通信1

目录: 1.前言 2.共享内存 3.认识接口 ------------------------------------------------------------------------------------------------------------------------- 1.前言 我们之前学的什么匿名管道、命名管道通信都是基于文件的通信方式!&#xf…

2023年数学建模:决策树:基于树结构的分类和回归方法

2023年9月数学建模国赛期间提供ABCDE题思路加Matlab代码,专栏链接(赛前一个月恢复源码199,欢迎大家订阅):http://t.csdn.cn/Um9Zd 目录 1. 决策树原理 1.1 信息增益 1.2 增益率 1.3 基尼指数 2. 决策树剪枝 2.1 预剪枝 2.2 后剪枝 3. MATLAB实现 3.1 实现CART算法 3…

讯飞星火认知大模型与ChatGPT的对比分析

引言: 人工智能是当今科技领域的热门话题,自然语言处理是人工智能的重要分支。自然语言处理的目标是让计算机能够理解和生成自然语言,实现人机交互和智能服务。近年来,随着深度学习的发展,自然语言处理领域出现了许多创…

leetcode 976. 三角形的最大周长

题目描述解题思路执行结果 leetcode 976. 三角形的最大周长 题目描述 三角形的最大周长 给定由一些正数(代表长度)组成的数组 nums ,返回 由其中三个长度组成的、面积不为零的三角形的最大周长 。如果不能形成任何面积不为零的三角形&#xf…

ARC学习(1)基本编程模型认识

笔者有幸接触了arc处理器,今天就来简单了解一下arc的编程模型 1、ARC基本认识 ARC IP是synopsys 新思公司开发的一个系列ARC IP核,其是一家电子设计自动化(EDA)解决方案提供商。其主页地址在这里!业务主要如下&#x…