【Trick】解决服务器cuda报错——RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED

ops/2024/12/28 1:00:22/

本人在服务器上训练代码时,遇到了以下报错:

Traceback (most recent call last):File "/home/ubuntu/zcardvein/zzz_dataAndTrain.py", line 163, in <module>preds = model(img_batch)File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_implreturn forward_call(*args, **kwargs)File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/parallel/data_parallel.py", line 171, in forwardoutputs = self.parallel_apply(replicas, inputs, kwargs)File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/parallel/data_parallel.py", line 181, in parallel_applyreturn parallel_apply(replicas, inputs, kwargs, self.device_ids[:len(replicas)])File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/parallel/parallel_apply.py", line 89, in parallel_applyoutput.reraise()File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/_utils.py", line 644, in reraiseraise exception
RuntimeError: Caught RuntimeError in replica 0 on device 0.
Original Traceback (most recent call last):File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/parallel/parallel_apply.py", line 64, in _workeroutput = module(*input, **kwargs)File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_implreturn forward_call(*args, **kwargs)File "/home/ubuntu/zcardvein/zzz_dataAndTrain.py", line 31, in forwardenc1 = self.encoder1(x)File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_implreturn forward_call(*args, **kwargs)File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/container.py", line 217, in forwardinput = module(input)File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_implreturn forward_call(*args, **kwargs)File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/conv.py", line 463, in forwardreturn self._conv_forward(input, self.weight, self.bias)File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/conv.py", line 459, in _conv_forwardreturn F.conv2d(input, weight, bias, self.stride,
RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED

通过询问gpt和群友,确定了是cuda自身的问题,因为cpu就能正常运行。

排查步骤主要如下:

1:通过查看显存,发现不是卡的显存炸了。

nvidia-smi

2:通过查看cuda和torch的兼容问题,发现结果是2.0.1+cu117,没问题。

python -c "import torch; print(torch.__version__)"

3:通过查看cuda available,发现结果是True。

4:把device换成cpu,发现代码能正常运行。

device = torch.device("cpu")

其实理论上,换个服务器就能解决我这个问题()

然后群友说试一下:cudnn禁用。

于是...

5:在需要运行的python文件开头加上cudnn禁用语句

torch.backends.cudnn.enabled = False

结果就能正常动起来了!


http://www.ppmy.cn/ops/145523.html

相关文章

[实战]Docker应用自动重启

场景 Java应用&#xff0c;在凌晨定时任开始时运行一段时间后&#xff0c;会自动重启&#xff0c;导致定时任务失败。该应用使用Docker部署 分析 Docker应用运行一段时间自动重启可能的原因为容器分配的资源&#xff08;如CPU、内存&#xff09;不足&#xff0c;系统可能会杀…

docker怎么复制容器的文件到宿主机

在Docker中&#xff0c;你可以使用docker cp命令来复制文件从容器到宿主机&#xff0c;或者从宿主机到容器。以下是如何将文件从容器复制到宿主机的步骤&#xff1a; 确定容器ID或名称&#xff1a;首先&#xff0c;你需要知道你想要复制文件的容器的ID或名称。你可以使用docker…

《手写Mybatis渐进式源码实践》实践笔记(第七章 SQL执行器的创建和使用)

文章目录 第七章 SQL执行器的定义和实现背景技术背景模板模式特点结构示例代码&#xff08;Java&#xff09; 业务背景 目标设计实现工程代码类图实现步骤1.执行器的定义和实现1-1. Executor定义执行器接口1-2.BaseExecutor执行器抽象基类1-3. SimpleExecutor 简单执行器实现 2…

冰狐智能辅助使用插件化开发集成三方ocr

插件化开发&#xff08;Plugin Development&#xff09;是一种软件开发模式&#xff0c;它将一个应用程序的功能拆分为模块&#xff0c;并允许在运行时动态加载、卸载和扩展这些模块&#xff0c;以增强应用程序的功能。冰狐支持动态加载和卸载第三方插件模块&#xff0c;开发者…

Unity 战斗系统中角色UI血条设计

1:如何选取技术方案 Unity战斗系统中&#xff0c;每个角色经常会有血条与昵称。如何架构设计才高效&#xff0c;我们列举一些常用的做法: onGUI来做昵称与血条;3D世界中创建一个3D物体来做血条与昵称,然后让血条与昵称对着摄像机;基于UGUI/NGUI单独做血条与昵称的UI节点&#…

Chromium GN 目标指南 - view_example 表单示例 (八)

1. 引言 在前面的文章中&#xff0c;我们学习了如何创建计数器示例&#xff0c;了解了如何使用 Label 和 Button 控件进行交互以及更新 UI 状态。在本篇文章中&#xff0c;我们将创建一个更复杂的示例 —— 表单&#xff0c;以学习如何使用 Textfield、Combobox 和 Checkbox 等…

DocFlow票据AI自动化处理工具,提升企业票据数字化管理效能

随着全球化与信息化进程&#xff0c;企业的文件、信息、数据吞吐量不断增长&#xff0c;2020年以来&#xff0c;业务形势的变革再次加速了企业对先进的文档数字化管理解决方案需求。其中&#xff0c;票据处理始终面临着文件量大耗时、单据高度多样化、“淡旺季”周期波动性强、…

极狐GitLab 17.7正式发布,可从 GitLab 丝滑迁移至极狐GitLab【一】

GitLab 是一个全球知名的一体化 DevOps 平台&#xff0c;很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版&#xff0c;专门为中国程序员服务。可以一键式部署极狐GitLab。 学习极狐GitLab 的相关资料&#xff1a; 极狐GitLab 官网极狐…