NVIDIA GPU管理利器:nvidia-smi详解

devtools/2024/10/17 11:04:02/

目录

一.简介

二.基础用法

2.1基础命令和示意图

2.2示意图的详细说明

三.进阶用法

3.1查看特定GPU

3.2查看GPU更详细信息

3.3查看每个进程的GPU使用情况


一.简介

        nvidia-smi是NVIDIA System Management Interface(系统管理接口)的简称,是一个用于查询和管理NVIDIA GPU设备的命令行工具。通过nvidia-smi,用户可以轻松查看GPU的实时状态信息,包括温度、使用率、内存使用情况、显存使用情况、运行中的进程及其对应的GPU资源占用等,是用户管理NVIDIA GPU不可或缺的工具之一。

        和一般的Linux命令不同的是,该命令需要服务器有nvidia的GPU并安装相应的GPU驱动才能使用。下面就通过基础用法和进阶用法详细介绍这个命令。

二.基础用法

2.1基础命令和示意图

        基础命令是:

nvidia-smi

        一切正常情况下,查看结果如下图所示:

命令输出图​​​​​

2.2示意图的详细说明

        下面是示意图的详细说明:

  • Driver Version: 这是NVIDIA显卡驱动程序的版本号,表示当前系统中安装的NVIDIA驱动程序的版本号。
  • CUDA Version: 12.2: 这是CUDA的版本号,表示当前系统安装的CUDA版本号为12.2。CUDA是NVIDIA针对GPU的并行计算平台和编程模型,它可以使开发者利用GPU的并行处理能力来加速各种应用程序。
  • GPU:GPU编号,从0开始,图中共4块GPU。
  • Fan:风扇转速(0%-100%),N/A表示没风扇。
  • Name:GPU名字/类型。
  • Temp:GPU温度(GPU温度过高会导致GPU频率下降)。
  • Perf:性能状态,从P0(最大性能)到P12(最小性能)。
  • Pwr:Usager/Cap:GPU功耗,Usage表示用了多少,Cap表示总共多少。
  • Persistence-M:持续模式状态。
  • Bus-Id:GPU总线。
  • Disp.A:Display Active,表示GPU是否初始化。
  • Memory-Usage:显存使用率。
  • Volatile GPU-UTil:GPU使用率。
  • Uncorr. ECC:是否开启错误检查和纠错技术,0/DISABLED,1/ENABLED,图中均为N/A。
  • Compute M:计算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED,图中均为Default。
  • Processes:显示每个进程占用的显存使用率、进程号、占用的哪个GPU。

三.进阶用法

3.1查看特定GPU

        该命令适用于多GPU服务器上查看单个GPU的状态,命令用法如下:

nvidia-smi -i 0

        其中-i 后面的数字填写的是GPU编号,根据实际情况填写。该命令的显示结果如下图所示。

查看具体的GPU

3.2查看GPU更详细信息

        该命令返回结果类似cpuinfo形式,信息更加简洁;但多GPU情况下信息繁杂,有需要时可以选择性使用,使用命令如下:

nvidia-smi -q

        返回结果如下图示。

GPU详细信息​​​​​​

3.3查看每个进程的GPU使用情况

        该命令用于监控NVIDIA GPU上当前运行程序的占用情况,会每隔一秒返回一次结果,如不手动停止不会停止输出。使用说明如下:

nvidia-smi pmon

        返回结果如下图所示。

查看进程的GPU使用信息

        文章正下方可以看到我的联系方式:鼠标“点击” 下面的 “威迪斯特-就是video system 微信名片”字样,就会出现我的二维码,欢迎沟通探讨。



http://www.ppmy.cn/devtools/118177.html

相关文章

深度学习:迁移学习

目录 一、迁移学习 1.什么是迁移学习 2.迁移学习的步骤 1、选择预训练的模型和适当的层 2、冻结预训练模型的参数 3、在新数据集上训练新增加的层 4、微调预训练模型的层 5、评估和测试 二、迁移学习实例 1.导入模型 2.冻结模型参数 3.修改参数 4.创建类&#xff…

正则表达式中的贪婪模式和非贪婪模式

正则表达式中的贪婪模式和非贪婪模式 一. 贪婪模式(Greedy Mode)二. 非贪婪模式(Non-Greedy Mode)三.应用场景区别 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者&…

RuoYi若依框架学习:多环境配置

在开发过程中,项目往往需要在不同的环境(如开发、测试和生产)中运行。RuoYi框架支持通过配置文件轻松实现多环境管理。以下是如何配置和使用多环境的技术分析。 1. 环境配置文件 RuoYi框架使用application-{profile}.yml文件来管理不同环境…

Ceph 基本架构(一)

Ceph架构图 Ceph整体组成 Ceph 是一个开源的分布式存储系统,设计用于提供优秀的性能、可靠性和可扩展性。Ceph 的架构主要由几个核心组件构成,每个组件都有特定的功能,共同协作以实现高可用性和数据的一致性。 以下是 Ceph 的整体架构及其…

Tomcat 乱码问题彻底解决

1. 终端乱码问题 找到 tomcat 安装目录下的 conf ---> logging.properties .修改ConsoleHandler.endcoding GBK (如果在idea中设置了UTF-8字符集,这里就不需要修改) 2. CMD命令窗口设置编码 参考:WIN10的cmd查看编码方式&am…

Zlibrary安装包下载与使用

文章目录 Zlibrary安装包下载与使用一 写在前面网盘链接1 百度网盘链接2 夸克网盘链接3 阿里云盘 二 安装1 Windows系统2 安卓3 苹果电脑端4 Linux系统Ubantu的下载与安装 三 Zlibrary的使用四 写在最后 Zlibrary安装包下载与使用 2024年9月27日下午4点 一 写在前面 1 Zlibr…

C++的new关键字

new的只要目的是在堆上分配内存。写了new,再写数据类型,不管是一个类,还是一个基本类型,还是一个数组,根据我们所写的决定必要分配的大小,以字节为单位。 比如,我们写了new int,则会…

成都睿明智科技有限公司赋能商家高效变现

在这个日新月异的数字时代,抖音电商正以不可阻挡之势崛起,成为众多品牌与商家竞相角逐的新战场。在这片充满机遇与挑战的蓝海中,成都睿明智科技有限公司如同一颗璀璨新星,凭借其专业的服务、创新的策略和敏锐的市场洞察&#xff0…