cluster-smi
是一个用于管理和监控集群中 GPU 的命令行工具,通常用于显示集群中每个节点(如 GPU 服务器)上的 GPU 使用情况。该命令是类似于 nvidia-smi
的工具,但它支持在集群环境中对多个节点进行管理和监控。
使用 cluster-smi --help
命令会显示:
单独使用 cluster-smi
命令会出现下面类似界面:
1. -color
- 功能:使用彩色输出,以便更容易区分不同信息。默认情况下是启用的。
- 示例:
cluster-smi -color
,显示彩色的GPU状态信息。
2. -d
- 功能:显示更详细的视图,包括风扇速度、温度和功率等信息。
- 示例:如果你希望查看
agpu1
节点的详细信息,你可以运行:
这会显示cluster-smi -d -n agpu1
agpu1
上 GPU 的详细运行状态。
3. -e
- 功能:显示扩展视图,可能包括更多的性能指标、信息或警告等。
- 示例:
cluster-smi -e
会显示每个节点的扩展信息。
4. -n string
- 功能:通过正则表达式匹配节点名称,以仅显示特定节点的信息。如果没有指定,默认显示所有节点的信息。
- 示例:
cluster-smi -n "agpu1|server-01"
只显示agpu1
和server-01
的信息。cluster-smi -n "server-.*"
显示所有以server-
开头的节点的信息。
5. -p
- 功能:显示进程的详细信息。通常用来查看 GPU 上运行的进程,可能包括进程名称、PID 等信息。
- 示例:
这会显示cluster-smi -p -n agpu1
agpu1
上所有运行中的进程,帮助你了解哪些进程在占用 GPU 资源。
6. -t
- 功能:显示事件的时间戳,帮助你追踪 GPU 的状态变化及事件发生的具体时间。
- 示例:
这样你就可以查看cluster-smi -t -n server-02
server-02
上的所有事件,并且每个事件都有时间戳。
7. -u string
- 功能:只显示特定用户的 GPU 信息。如果你想查看某个特定用户在 GPU 上的使用情况,可以使用这个选项。
- 示例:
这样就只会显示cluster-smi -u "user123" -n agpu2
agpu2
上属于user123
用户的 GPU 信息。
示例:结合节点
假设有以下节点: agpu1
, agpu2
, agpu3
, server-01
, server-02
, server-03
, vgpu1
, vgpu2
如果想查看所有服务器上 GPU 的状态,可以直接运行:
cluster-smi
如果只关心 agpu1
和 server-02
,可以运行:
cluster-smi -n "agpu1|server-02"
如果需要查看详细信息,比如温度、风扇速度、功率等,可以使用:
cluster-smi -d -n "agpu1|agpu2"
如果只想看 agpu3
上某个特定用户(比如 user123
)的进程:
cluster-smi -u "user123" -n agpu3