cluster-smi 命令详解

news/2025/2/21 14:14:55/

cluster-smi 是一个用于管理和监控集群中 GPU 的命令行工具,通常用于显示集群中每个节点(如 GPU 服务器)上的 GPU 使用情况。该命令是类似于 nvidia-smi 的工具,但它支持在集群环境中对多个节点进行管理和监控。

使用 cluster-smi --help 命令会显示:
在这里插入图片描述

单独使用 cluster-smi 命令会出现下面类似界面:
在这里插入图片描述

1. -color

  • 功能:使用彩色输出,以便更容易区分不同信息。默认情况下是启用的。
  • 示例cluster-smi -color,显示彩色的GPU状态信息。

2. -d

  • 功能:显示更详细的视图,包括风扇速度、温度和功率等信息。
  • 示例:如果你希望查看 agpu1 节点的详细信息,你可以运行:
    cluster-smi -d -n agpu1
    
    这会显示 agpu1 上 GPU 的详细运行状态。

3. -e

  • 功能:显示扩展视图,可能包括更多的性能指标、信息或警告等。
  • 示例cluster-smi -e 会显示每个节点的扩展信息。

4. -n string

  • 功能:通过正则表达式匹配节点名称,以仅显示特定节点的信息。如果没有指定,默认显示所有节点的信息。
  • 示例
    • cluster-smi -n "agpu1|server-01" 只显示 agpu1server-01 的信息。
    • cluster-smi -n "server-.*" 显示所有以 server- 开头的节点的信息。

5. -p

  • 功能:显示进程的详细信息。通常用来查看 GPU 上运行的进程,可能包括进程名称、PID 等信息。
  • 示例
    cluster-smi -p -n agpu1
    
    这会显示 agpu1 上所有运行中的进程,帮助你了解哪些进程在占用 GPU 资源。

6. -t

  • 功能:显示事件的时间戳,帮助你追踪 GPU 的状态变化及事件发生的具体时间。
  • 示例
    cluster-smi -t -n server-02
    
    这样你就可以查看 server-02 上的所有事件,并且每个事件都有时间戳。

7. -u string

  • 功能:只显示特定用户的 GPU 信息。如果你想查看某个特定用户在 GPU 上的使用情况,可以使用这个选项。
  • 示例
    cluster-smi -u "user123" -n agpu2
    
    这样就只会显示 agpu2 上属于 user123 用户的 GPU 信息。

示例:结合节点

假设有以下节点: agpu1, agpu2, agpu3, server-01, server-02, server-03, vgpu1, vgpu2

如果想查看所有服务器上 GPU 的状态,可以直接运行:

cluster-smi

如果只关心 agpu1server-02,可以运行:

cluster-smi -n "agpu1|server-02"

如果需要查看详细信息,比如温度、风扇速度、功率等,可以使用:

cluster-smi -d -n "agpu1|agpu2"

如果只想看 agpu3 上某个特定用户(比如 user123)的进程:

cluster-smi -u "user123" -n agpu3

http://www.ppmy.cn/news/1573589.html

相关文章

如何使用动画和日期差值来切换和展示任务-计划时钟(微信小程序)

微信小程序-计划时钟已上线,欢迎各位小伙伴的测试和使用~(微信小程序搜计划时钟即可使用) 在这篇博客中,我们将介绍如何使用 JavaScript 和微信小程序的 wx.createAnimation API 来实现基于日期差值的切换动画。我们还会展示如何…

HTML/CSS中交集选择器

1.作用:选中同时符合多个条件的元素 交集就是或的意思 2.语法:选择器1选择器2选择器3......选择器n{} 3.举例: /* 选中:类名为beauty的p元素,此种写法用的非常的多 */p.beauty{color: red;}/* 选中:类名包含rich和beauty的元素 */.rich.beauty{color: blue;} 4.注意: 1.有标签…

工厂方法模式 (Factory Method Pattern) 在Spring Boot 中的应用场景

在 Spring Boot 日常开发中,工厂方法模式(Factory Method Pattern)的应用场景非常多,它可以帮助我们优雅地创建对象,解耦对象创建逻辑,提高代码的可维护性和可扩展性。下面我将详细列举几个典型的应用场景&…

# 10分钟了解DeepSeek,保姆级部署DeepSeek到WPS,实现AI赋能

10分钟了解DeepSeek,保姆级部署DeepSeek到WPS,实现AI赋能 原创 DeepSeek 2025年02月12日 08:01 西安 AI技术、 AI知识 、 AI应用 、 人工智能 、 大语言模型 一、什么是deepseek 1、DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司…

在使用export default 导出时,使用的components属性的作用?

文章目录 析与思考回答 析与思考 在 Vue.js 中,使用 export default 导出组件时,通常会通过 components 选项将子组件也导出出来(其实是将子组件进行局部注册) 。这涉及到 Vue.js 组件的注册机制。为了更清晰地理解这个问题&…

如何选择免费进销存系统?推荐清单与关键考量

如何选择免费进销存系统?推荐清单与关键考量 进销存(采购、销售、库存管理)系统是中小企业提升运营效率的核心工具。对于预算有限的企业来说,免费的进销存软件是一个高性价比的选择。然而,市面上免费工具众多&#xf…

Deepseek R1模型本地化部署+API接口调用详细教程:释放AI生产力

文章目录 前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装ollama2部署DeepSeek R1模型删除已存在模型,以7b模型为例 三、DeepSeek API接口调用Cline配置 前言 随着最近人工智能 DeepSeek 的爆火,越来越多的技术大佬们开始关注如…

IP证书 vs SSL证书:数字安全的两条技术路径与未来博弈

在数字化时代,数据安全成为互联网的基石,而数字证书则是构建信任的关键载体。当大多数人对SSL证书耳熟能详时,一种名为IP证书的技术正在特定领域悄然崛起。这两种证书虽同属加密认证体系,却在技术逻辑与应用场景上形成鲜明分野。 …