【代码问题】【Pytorch】训练模型时Loss为NaN或INF

embedded/2024/9/23 7:26:29/

解决方法或者问题排查:

加归一化层
我的问题是我新增的一个模块与原来的模块得到的张量相加,原张量是归一化后的,我的没有:

python">class Module(nn.Module):def __init__(self,dim,):super().__init__()# 新增一个LayerNorm层进行归一化self.layer_norm = nn.LayerNorm(dim)def forward(self, x, size):# 最后输出前进行处理x = self.layer_norm(x)return x

batchsize设小点

学习率降低

数据缺少label


我只遇到了第一个那种情况,所以我给出第一个的解决方法,其他的后续遇到再补充。
排查的时候可以在关键节点增加断点,比如我的训练一个epoch时没问题,一个epoch训练完要进行验证的时候出现问题,所以打印出一个epoch的所有loss看怎么回事。
在这里插入图片描述


http://www.ppmy.cn/embedded/25523.html

相关文章

vue3【实用教程】声明响应式状态(含ref,reactive,toRef(),toRefs() 等)

Vue 3 中的数据基于 JavaScript Proxy (代理) 实现响应式 ( vue2 中的数据通过 Object.defineProperty() 方法和对数组变异方法的重写,实现响应式) 选项式 API 用 data 选项声明响应式状态,值为返回一个对象的函数。 在创建组件实例的时候会调用此函数函…

【ARMv9 DSU-120 系列 5 -- CHI Interface】

请阅读【Arm DynamIQ™ Shared Unit-120 专栏 】 文章目录 DSU-120 CHI BUSAddress Target Groups配置步骤映射和管理Hashing for CHI transaction distribution散列过程和地址目标组识别散列函数定义两个地址目标组的散列四个地址目标组的散列八个地址目标组的散列架构框图

va_start 与 va_end

在C语言中,当我们定义一个可变参数的函数时,我们需要一种方法来依次访问每个参数。va_start和va_end宏就是用来处理这些可变参数的。 va_start宏的作用是初始化一个va_list类型的变量,这个变量是用来存储和访问可变参数的。va_start应该在函…

数据结构-树和森林之间的转化

从树的二叉链表的定义可知,任何一棵和树对应的二叉树,其根节点的右子树必为空。这里我们举三个树,将这个由三个树组成的森林组成二叉树是这个样子的。 下面我们说明一下详细过程,首先将每个树转化为二叉的状态,如图所示…

linux jmeter ant下载并安装【2024-亲测】

环境 centos7 一、下载jmeter 在这里插入代码片wget https://dlcdn.apache.org//jmeter/binaries/apache-jmeter-5.6.3.tgz --no-check-certificate解压 tar -zxvf apache-jmeter-5.6.3.tgz复制到安装目录、设置环境变量 vim /etc/profile添加环境变量,路径改成…

数据结构_时间复杂度

✨✨所属专栏:数据结构✨✨ ✨✨作者主页:嶔某✨✨ 什么是时间复杂度? 时间复杂度的定义:在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。一个算法执行所耗费的时间&#xff0…

Python来计算 1,2,3,4 能组成多少个不相同且不重复的三位数?

我们今天的例子是 有 1,2,3,4 四个数字,它们能组成多省个互不相同且无重复的三位数?都分别是多少? 话不多说,我们先上代码 num 0 # 我们写了三个for循环,表示生成的三位数 for i…

VM Ubuntu unknown filesystem

unknown filesystem Entering rescue mode... grub rescue> Ubuntu中遇到“error: unknown filesystem”和“Entering rescue mode... grub rescue>”的错误提示时,通常表示GRUB(GRand Unified Bootloader)无法识别或加载文件系统。这…