【解决】多卡服务器GPU不能多用户同时使用的问题

news/2025/2/13 2:15:09/

一台多卡服务器,为提高利用效率,通常有多个用户使用。

假设有一台服务器A,分别有0,1,2,3四张卡,我们有两个用户:甲和乙。

当甲启动卡0时,乙想用卡1,2,3。但是乙的进程一直卡住了,等甲进程完全结束后也未曾启动。白白浪费了其他3倍的GPU hours,人神共愤。但是Debug的时候又不知道问题出在哪里。


那么这篇文章提供一个可能的解决方案:

大概率是因为nvidia-mps进程导致多用户不能同时使用GPU
解决办法如下
先查看mps进程号:

ps -ef | grep nvidia

看到:

root 1234 xxx /usr/bin/nvidia-cuda-mps-server

第二列就是进程号,直接用root权限kill掉这个进程:

sudo kill -9 1234

这种情况,几乎就解决了多用户用卡冲突的问题~

另外,如果还想掰细一点,即同一张卡也被多个用户使用,实现最大程度地共享使用,那就设置:

nvidia-smi -i 0 -c DEFAULT
nvidia-smi -i 1 -c DEFAULT
nvidia-smi -i 2 -c DEFAULT
nvidia-smi -i 3 -c DEFAULT

分别将4张卡都设置为DEFAULT模式。如果想独享某张卡,可以设置为EXCLUSIVE_PROCESS,假如我想让卡2被独享,则:

nvidia-smi -i 2 -c EXCLUSIVE_PROCESS

有问题请留言交流~


http://www.ppmy.cn/news/1093439.html

相关文章

无涯教程-JavaScript - COMPLEX函数

描述 COMPLEX函数将实系数和虚系数转换为x yi或x yj形式的复数。 语法 COMPLEX (real_num, i_num, [suffix])争论 Argument描述Required/Optionalreal_numThe real coefficient of the complex number. Requiredi_numThe imaginary coefficient of the complex number.Re…

【校招VIP】产品群面角色之闪光者

考点介绍: 闪光者在群面中要注意,在别人表述的时候需要找关键点,听到与之契合的要点时,审时度势的插入战局给予贡献性意见。 产品群面角色之闪光者-相关题目及解析内容可点击文章末尾链接查看!一、考点题目 1. 一个产…

[学习笔记]CS224W

资料: 课程网址 斯坦福CS224W图机器学习、图神经网络、知识图谱【同济子豪兄】 斯坦福大学CS224W图机器学习公开课-同济子豪兄中文精讲 图的基本表示 图是描述各种关联现象的通用语言。与传统数据分析中的样本服从独立同分布假设不一样,图数据自带关联…

Android Jetpack Compose 用计时器demo理解Compose UI 更新的关键-------状态管理(State)

目录 概述1.什么是状态2.什么是单向数据流3.理解Stateless和Stateful4.使用Compose实现一个计数器4.1 实现计数器4.2 增加组件复用性-----状态上提 总结 概述 我们都知道了Compose使用了声明式的开发范式,在这样的范式中,UI的职责更加的单一&#xff0c…

【huggingface】数据集及模型下载并保存至本地

目录 数据集ChnSentiCorppeoples_daily_ner 模型bert-base-chinesehfl/rbt3t5-baseopus-mt-zh-enChinese_Chat_T5_Base 环境:没有代理,无法访问部分国外网络 数据集 正常情况下通过load_dataset加载数据集;save_to_disk保存至本地&#xff1b…

下载配置 maven并在 idea 上应用

目录 一 maven 定义 二 Maven特点 三 Maven仓库 四 安装配置maven 步骤一:准备安装包,解压 步骤二:配置maven的环境变量 步骤三:测试maven的环境变量是否配置成功 步骤四:配置maven本地仓库 步骤五:阿里云、腾讯镜像配置 步骤六:全局配置idea的maven路径 步骤七:创建…

不用入耳就有好音质,南卡OE Pro 0压开放式耳机

从15年第一次接触无线耳机到如今大概用过二十多款无线耳机,用过最多的厂牌就是南卡,包括主、被动降噪和骨传导等品系的数个型号,见证了南卡产品从早期成长探索阶段到如今设计、工艺日臻完善且形成品系,对南卡的技术、工艺和设计愈…

嵌入式软件有限状态机的 C 语言实现

状态机模式是一种行为模式,通过多态实现不同状态的调转行为的确是一种很好的方法,只可惜在嵌入式环境下,有时只能写纯C代码,并且还需要考虑代码的重入和多任务请求跳转等情形,因此实现起来着实需要一番考虑。 近日在看…