报错
实验室去年到今年断了几次电,然后服务器上的2080Ti一直就感觉有点小毛病。属于是被折磨了几个月了。
然后前两周断电后,显卡就基本上完全用不了了,经常服务器开机都会失败。并且就算服务器开机成功过后,没有几分钟显卡就会自己关掉
刚刚开机一切都很正常
但是没过几分钟显卡就会突然用不了了:
nvidia-smi
Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error
然后查看是不是有显卡
lspci| grep -i nvidia
02:00.0 VGA compatible controller: NVIDIA Corporation TU102 [GeForce RTX 2080 Ti] (rev ff)
很奇怪啊,显卡是在的,但是rev ff
就是显卡关闭了。
重启多次过后一直都是这样。
可能的原因
在网上疯狂找,觉得可能存在以下问题
- 电源问题
- 也可能是非持久模式导致的频繁初始化,利用命令sudo nvidia-smi -pm 1即可解决。注意这条命令重启后会失效,所以最好写进/etc/rc.local里面,以自动执行。
- 驱动问题
- GPU过热,风扇,机箱散热问题
- 还有一个,如链接。但是我看不懂是怎么回事。
我的问题
我是服务器的电源线在前几次的断电中出现了问题,所以会出现开机的问题,并且显卡毕竟是大功率电器,而且好像有保护机制,电源有问题就自己断电了。
最后换了一根电源线就解决问题了。
如何排查问题的
电源问题
这个太麻烦,而且一般不好解决也不好发现,所以先不管
非持久模式导致的频繁初始化
这个方案执行最简单,所以第一个试一下。
然后,使用了sudo nvidia-smi -pm 1
没有用,写到/etc/rc.local里面,也没有用。
驱动问题
退diver版本,更新版本,都没有用
更新cuda也没有用。
个人感觉这个报错一般不会是驱动的问题
GPU过热,风扇,机箱散热问题
开机运行就几分钟,感觉也不太像过热的问题。但是还是抬了个风扇到机房对着吹,最后发现确实不是这个问题。
最后解决
最后实在是受不了了,想着把显卡卸下来。然后先是把服务器抬到实验室,给老板表演一下显卡自己掉线,结果等了半天一点问题都没有,非常平稳。
然后灰溜溜地把服务器弄回去,结果插电源的时候,pa地一下电源的位置闪了一下火花。突然才想到电源的问题还没有排查。。。
然后随便换了个根电源线,现在一两天了,都没有出问题。。。