cluster-smi 命令详解

news/2025/2/21 14:14:55/

cluster-smi 是一个用于管理和监控集群中 GPU 的命令行工具，通常用于显示集群中每个节点（如 GPU 服务器）上的 GPU 使用情况。该命令是类似于 nvidia-smi 的工具，但它支持在集群环境中对多个节点进行管理和监控。

使用 cluster-smi --help 命令会显示：
在这里插入图片描述

单独使用 cluster-smi 命令会出现下面类似界面：
在这里插入图片描述

1. `-color`

功能：使用彩色输出，以便更容易区分不同信息。默认情况下是启用的。
示例：cluster-smi -color，显示彩色的GPU状态信息。

2. `-d`

功能：显示更详细的视图，包括风扇速度、温度和功率等信息。
示例：如果你希望查看 agpu1 节点的详细信息，你可以运行：
```
cluster-smi -d -n agpu1
```
这会显示 agpu1 上 GPU 的详细运行状态。

3. `-e`

功能：显示扩展视图，可能包括更多的性能指标、信息或警告等。
示例：cluster-smi -e 会显示每个节点的扩展信息。

4. `-n string`

功能：通过正则表达式匹配节点名称，以仅显示特定节点的信息。如果没有指定，默认显示所有节点的信息。
示例：
- cluster-smi -n "agpu1|server-01" 只显示 agpu1 和 server-01 的信息。
- cluster-smi -n "server-.*" 显示所有以 server- 开头的节点的信息。

5. `-p`

功能：显示进程的详细信息。通常用来查看 GPU 上运行的进程，可能包括进程名称、PID 等信息。
示例：
```
cluster-smi -p -n agpu1
```
这会显示 agpu1 上所有运行中的进程，帮助你了解哪些进程在占用 GPU 资源。

6. `-t`

功能：显示事件的时间戳，帮助你追踪 GPU 的状态变化及事件发生的具体时间。
示例：
```
cluster-smi -t -n server-02
```
这样你就可以查看 server-02 上的所有事件，并且每个事件都有时间戳。

7. `-u string`

功能：只显示特定用户的 GPU 信息。如果你想查看某个特定用户在 GPU 上的使用情况，可以使用这个选项。
示例：
```
cluster-smi -u "user123" -n agpu2
```
这样就只会显示 agpu2 上属于 user123 用户的 GPU 信息。

示例：结合节点

假设有以下节点： agpu1, agpu2, agpu3, server-01, server-02, server-03, vgpu1, vgpu2

如果想查看所有服务器上 GPU 的状态，可以直接运行：

cluster-smi

如果只关心 agpu1 和 server-02，可以运行：

cluster-smi -n "agpu1|server-02"

如果需要查看详细信息，比如温度、风扇速度、功率等，可以使用：

cluster-smi -d -n "agpu1|agpu2"

如果只想看 agpu3 上某个特定用户（比如 user123）的进程：

cluster-smi -u "user123" -n agpu3

cluster-smi 命令详解

1. `-color`

2. `-d`

3. `-e`

4. `-n string`

5. `-p`

6. `-t`

7. `-u string`

示例：结合节点

相关文章

如何使用动画和日期差值来切换和展示任务-计划时钟（微信小程序）

HTML/CSS中交集选择器

工厂方法模式 (Factory Method Pattern) 在Spring Boot 中的应用场景

# 10分钟了解DeepSeek，保姆级部署DeepSeek到WPS，实现AI赋能

在使用export default 导出时,使用的components属性的作用？

如何选择免费进销存系统？推荐清单与关键考量

Deepseek R1模型本地化部署+API接口调用详细教程：释放AI生产力

IP证书 vs SSL证书：数字安全的两条技术路径与未来博弈

cluster-smi 命令详解

1. -color

2. -d

3. -e

4. -n string

5. -p

6. -t

7. -u string

示例：结合节点

相关文章

1. `-color`

2. `-d`

3. `-e`

4. `-n string`

5. `-p`

6. `-t`

7. `-u string`