A100 MIG 使用说明

news/2024/11/24 2:05:17/

A100 MIG 使用说明

官方手册

阅读约定

美元符号 “$” 号开头的黄色标注,表示一个命令行界面的命令。

前提条件

当需要在支持 MIG 模式的 GPU 中开启 MIG,则需要满足以下前提条件和最低的软件版本:

  • MIG 仅在 A100 与 H100上支持(截至2022年6月7日)
  • CUDA 11 和 NVIDIA 驱动程序450.80.02或更高版本
  • CUDA 11 支持的 Linux 操作系统发行版
  • 如果运行容器或使用Kubernetes,则:(1) NVIDIA容器工具包(NVIDIA-docker2):v2.5.0或更高版本 (2)NVIDIA K8s设备插件:v0.7.0或更高版本 (3)NVIDIA gpu功能发现:v0.2.0或更高版本

MIG 可以使用 NVIDIA 管理库(NVML,NVIDIA Management Library)的 API 或其命令行界面 $ nvidia-smi 进行编程管理。

有关 MIG 命令的更多信息,请参阅 $ man nvidia-smi$ nvidia-smi mig --help。有关MIG 管理 API 的信息,请参阅 CUDA 11 中包含的 NVML 的头文件(NVML.11.0.h)。

开启MIG模式(Enable MIG Mode)

默认情况下,NVIDIA A100 上未启用 MIG 模式。
在 linux 上运行 $ nvidia-smi 命令会显示 MIG 模式已禁用。

可以使用以下命令在每个 GPU 上启用 MIG 模式:

$ nvidia-smi -i <GPU IDs> -mig 1

注意:

  • 可以使用逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 来选择GPU。
  • 如果未指定 GPU ID,则 MIG 模式将应用于系统上的所有 GPU。
  • MIG 模式(禁用或启用状态)在系统重新启动前后保持不变。

例如:

$ sudo nvidia-smi -i 0 -mig 1
Enabled MIG Mode for GPU 00000000:36:00.0
All done.

关闭MIG模式(Disable MIG Mode)

可以使用以下命令在每个 GPU 上关闭 MIG 模式:

$ nvidia-smi -i <GPU IDs> -mig 0
Disabled MIG Mode for GPU 00000000:36:00.0
All done.

GPU实例配置文件

NVIDIA 驱动程序提供了许多配置文件,用户可以在 A100 中配置 MIG 功能时选择这些配置文件。配置文件是用户可以创建的 GPU 实例的大小和功能。驱动程序还提供有关放置的信息,这些信息指示可以创建的实例的类型和数量。

$ sudo nvidia-smi mig -lgip
+-----------------------------------------------------------------------------+
| GPU instance profiles:                                                      |
| GPU   Name             ID    Instances   Memory     P2P    SM    DEC   ENC  |
|                              Free/Total   GiB              CE    JPEG  OFA  |
|=============================================================================|
|   0  MIG 1g.5gb        19     0/7        4.75       No     14     0     0   |
|                                                             1     0     0   |
+-----------------------------------------------------------------------------+
|   0  MIG 1g.5gb+me     20     0/1        4.75       No     14     1     0   |
|                                                             1     1     1   |
+-----------------------------------------------------------------------------+
|   0  MIG 2g.10gb       14     0/3        9.75       No     28     1     0   |
|                                                             2     0     0   |
+-----------------------------------------------------------------------------+
|   0  MIG 3g.20gb        9     0/2        19.62      No     42     2     0   |
|                                                             3     0     0   |
+-----------------------------------------------------------------------------+
|   0  MIG 4g.20gb        5     0/1        19.62      No     56     2     0   |
|                                                             4     0     0   |
+-----------------------------------------------------------------------------+
|   0  MIG 7g.40gb        0     0/1        39.50      No     98     5     0   |
|                                                             7     1     1   |
+-----------------------------------------------------------------------------+

使用 $ nvidia-smi mig -lgipp 命令可列出可用的分配安排。
分配安排的语法是 {<index>}:<GPU Slice Count>,并显示实例在 GPU 上的分配安排。显示的放置索引指示配置文件如何映射到 GPU 上,如支持的配置文件表所示。

$ sudo nvidia-smi mig -lgipp
GPU  0 Profile ID 19 Placements: {0,1,2,3,4,5,6}:1
GPU  0 Profile ID 20 Placements: {0,1,2,3,4,5,6}:1
GPU  0 Profile ID 14 Placements: {0,2,4}:2
GPU  0 Profile ID  9 Placements: {0,4}:4
GPU  0 Profile ID  5 Placement : {0}:4
GPU  0 Profile ID  0 Placement : {0}:8

该命令显示用户可以创建两个 3g.20gb 类型的实例(配置文件ID 9)或七个 1g.5gb 实例(配置文件ID 19)。

创建GPU实例

在开始使用MIG之前,用户需要使用 $ nvidia-smi mig -cgi 选项来创建GPU实例,可以使用以下三个选项之一指定要创建的实例配置文件:

  • Profile ID (e.g. 9, 14, 5)
  • Short name of the profile (e.g. 3g.20gb
  • Full profile name of the instance (e.g. MIG 3g.20gb)

一旦 GPU 实例被创键,就需要创建相应的计算实例(CI),通过使用 $ nvidia-smi mig -C 选项来创建这些实例。

注意:
如果不创建GPU实例(和相应的计算实例),CUDA 工作负载就无法在 GPU 上运行。换句话说,仅在GPU上启用MIG模式是不够的。还要注意的是,创建的MIG设备不会在系统重新启动后持续存在。因此,如果GPU或系统被重启,则用户或系统管理员需要重新创建所需的MIG配置。

例:
下面的示例显示了用户如何创建 GPU 实例(以及相应的计算实例)。在本例中,用户可以创建两个GPU 实例(3g.20gb类型),每个 GPU 实例具有一半的可用计算和内存容量。在本例中,我们特意使用配置文件 ID 和短配置文件名称来展示如何使用任一选项:

$ sudo nvidia-smi mig -cgi 9,3g.20gb -C
Successfully created GPU instance ID  2 on GPU  0 using profile MIG 3g.20gb (ID  9)
Successfully created compute instance ID  0 on GPU  0 GPU instance ID  2 using profile MIG 3g.20gb (ID  2)
Successfully created GPU instance ID  1 on GPU  0 using profile MIG 3g.20gb (ID  9)
Successfully created compute instance ID  0 on GPU  0 GPU instance ID  1 using profile MIG 3g.20gb (ID  2)

现在可以通过如下命令列出可用的GPU实例:

$ sudo nvidia-smi mig -lgi
+----------------------------------------------------+
| GPU instances:                                     |
| GPU   Name          Profile  Instance   Placement  |
|                       ID       ID       Start:Size |
|====================================================|
|   0  MIG 3g.20gb       9        1          4:4     |
+----------------------------------------------------+
|   0  MIG 3g.20gb       9        2          0:4     |
+----------------------------------------------------+

现在可以通过如下命令验证是否已创建 GI(GPU Instance) 和相应的 CI(Compute Instance) :

$ nvidia-smi
+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+------------------+----------------------+-----------+-----------------------+
| GPU  GI  CI  MIG |         Memory-Usage |        Vol|         Shared        |
|      ID  ID  Dev |                      | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                  |                      |        ECC|                       |
|==================+======================+===========+=======================|
|  0    1   0   0  |     11MiB / 20224MiB | 42      0 |  3   0    2    0    0 |
+------------------+----------------------+-----------+-----------------------+
|  0    2   0   1  |     11MiB / 20096MiB | 42      0 |  3   0    2    0    0 |
+------------------+----------------------+-----------+-----------------------++-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

http://www.ppmy.cn/news/493003.html

相关文章

当电脑中已经装了打印机驱动时,想再连接同型号的另一台打印机

如题&#xff0c;此时不再需要装驱动了&#xff0c;直接按照如下步骤添加打印机&#xff1a; 1、开始菜单 2、设备和打印机 3、添加打印机 4、添加网络、无线或Bluetooth打印机&#xff08;W&#xff09; 5、我需要的打印机不在列表中 6、使用TCP/IP地址或主机名添加打印…

如何连接打印机?

连接打印机的俩种方法&#xff0c;对号入座 第一种&#xff1a; 打印机没有连接其它电脑&#xff0c;把打印机的use接口连接电脑主机&#xff0c;打开控制面板 点击查看设备和打印机 查看你打印机的有没有在上面 然后查看打印机的属性&#xff0c;还有型号 通过这个型号去打…

斑马zebra大打印机 110Xi4 型号 串口连接无法识别问题

斑马zebra大打印机 110Xi4 型号 串口连接无法识别,而USB线可以连接识别 解决:使用直连线没有效果,通过使用一公一母的交叉线连接,即可识别.

关于同步开关电源和异步开关电源

关于同步开关电源和异步开关电源&#xff0c;关于同步开关电源和非同步开关电源&#xff0c;关于开关电源同步和异步&#xff0c;关于开关电源同步和非同步&#xff0c;关于开关电源同步升压和异步升压&#xff0c;关于开关电源同步升压和非同步升压&#xff0c;如下图所示&…

六年的计算机电源坏啦,电脑电源坏了有什么症状

大家好&#xff0c;我是时间财富网智能客服时间君&#xff0c;上述问题将由我为大家进行解答。 电脑电源坏了的症状&#xff1a; 1、如果完全坏了&#xff0c;就是开机无任何反应&#xff0c;即不自检显示器无显示、机箱里风扇不转动等等&#xff1b; 2、还有一种情况是没有全完…

计算机休眠按钮是哪个,电源按钮设置成睡眠好还是休眠好?

电源按钮设置成睡眠好还是休眠好?只有数量很少的朋友才会对自己的电脑精雕细琢!连电源选项设置都要照顾到!好多朋友对电源按钮有误解&#xff0c;以为按下电源键就是关机&#xff0c;实际上电子技术发展到今天&#xff0c;出于保护电脑硬件的考虑&#xff0c;一般BIOS或主板提…

开关电源空载吱吱声_开关电源变压器工作时为什么出现吱吱声?

变压器的原理就是电磁感应&#xff0c;主要是用来改变交流电压的大小&#xff0c;在现代电工工业中都要用到变压器&#xff0c;变压器可以分为很多的种类&#xff0c;应用于许多的行业&#xff0c;开关电源变压器也会出现故障&#xff0c;最普遍的就是在工作当中会出现吱吱的声…

开关电源纹波计算

对滤波效果而言&#xff0c;电容的ESL和ESR参数都很重要&#xff0c;电感会阻止电流的突变&#xff0c;电阻则限制了电流的变化率&#xff0c;这些影响对电容的充放电显然都不利。优质的电容在设计及制造时都采取了必要的手段来降低ESL和ESR&#xff0c;故而横向比较起来&#…