RNN的反向传播

devtools/2024/9/23 6:39:03/

目录

1.RNN网络:通过时间反向传播(through time back propagate TTBP)

2.RNN梯度分析 

2.1隐藏状态和输出

2.2正向传播:

2.3反向传播: 

 2.4问题瓶颈:

 3.截断时间步分类:

4.截断策略比较

 5.反向传播的细节

​编辑​编辑​编辑

 6.结论


 

1.RNN网络:通过时间反向传播(through time back propagate TTBP)

  • 1.RNN计算梯度:链式法则计算梯度
  • 2.计算瓶颈:长链路带来的不确定性

2.RNN梯度分析 

2.1隐藏状态和输出

2.2正向传播: 

2.3反向传播: 

 2.4问题瓶颈:

蝴蝶效应,泛化性能差

 3.截断时间步分类:

常规截断、随机截断

4.截断策略比较

 5.反向传播的细节

 6.结论

记住结论: RNN网络的反向传播比较复杂, 容易发生梯度消失和梯度爆炸. 

                 从而引出梯度释放和梯度截断 ——>解决梯度爆炸问题


http://www.ppmy.cn/devtools/115187.html

相关文章

Python+Pytest框架,“api_key.py文件怎么编写“?

1、在"api_keyword"文件夹下新增"api_key.py" import allure import requests import json import jsonpath from deepdiff import DeepDifffrom config import *allure.title("测试用例执行") class ApiKey:allure.step(">>>:开…

【.net core】线程的创建和方法调用

模拟线程创建socket服务端 //socket帮助类 public class SocketHelper {private Socket listenerSocket;private IPEndPoint endPoint;public SocketHelper(){endPoint new IPEndPoint(IPAddress.Loopback, 50020); // 端口12345listenerSocket new Socket(endPoint.AddressF…

开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-Gradio快速体验(十四)

一、前言 Qwen2.5 是通义千问团队在 2024 年9月19日云栖大会上发布的新一代开源模型,包含语言模型 Qwen2.5 及专门针对编程和数学的 Qwen2.5-Coder 和 Qwen2.5-Math。其中,Qwen2.5 语言模型在超过 18T 的数据集上预训练,显著提升了知识量和编程、数学能力,具备更强的指令遵…

MySQL数据库概述与基础

存储数据的方式 在数据库领域,存储数据的方式多种多样,主要包括以下几种: 变量和列表: 变量:在编程语言中用于存储单个数据项。列表(或数组):用于存储一系列有序的数据项。文件&am…

深度学习-03 Pytorch

损失函数是用来衡量模型预测结果与真实值之间的差异,并用来优化模型的指标。在机器学习和神经网络中,常用的损失函数包括均方误差(Mean Squared Error,MSE)、交叉熵(Cross-Entropy)等。 反向传播…

Java项目实战II基于Java+Spring Boot+MySQL的校园社团信息管理系统(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、论文参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 在当今高校…

FewShotChatMessagePromptTemplate 和 FewShotPromptTemplate区别

FewShotChatMessagePromptTemplate 和 FewShotPromptTemplate 都是 LangChain 框架中用于少样本学习的提示模板(Prompt Template),但它们在设计和用途上存在一些区别。 FewShotChatMessagePromptTemplate 用途:主要用于聊天场景…

汇编实现从1加到1000(《X86汇编语言 从实模式到保护模式(第2版》) 第135页第2题解答)

题目: 编写一段主引导扇区程序,计算从1加到1000的和,并在屏幕上显示结果 输出结果: 代码: jmp near start text db 123...1000 start:mov ax,0x07c0mov ds,ax ;数据段从主引导区开始mov ax,0xb800mov es,ax ;显存地址从B8000物理地址开始mov si,text ;si指向text的第…