开源 GPU 集群管理器 GPUStack

devtools/2025/2/7 8:21:57/
aidu_pl">

GPUStack 是一个用于运行 AI 模型的aiYuan.html" title=开源>开源 GPU 集群管理器。
项目地址:gpustack/gpustack: Manage GPU clusters for running AI modelshttps://github.com/gpustack/gpustackhttps://github.com/gpustack/gpustackhttps://github.com/gpustack/gpustack

核心特性

  • 广泛的硬件兼容性:支持管理 Apple Mac、Windows PC 和 Linux 服务器上不同品牌的 GPU。
  • 广泛的模型支持:从大语言模型 LLM、多模态模型 VLM 到 Diffusion 扩散模型、STT 与 TTS 语音模型、文本嵌入和重排序模型的广泛支持。
  • 异构 GPU 支持与扩展:轻松添加异构 GPU 资源,按需扩展算力规模。
  • 分布式推理:支持单机多卡并行和多机多卡并行推理。
  • 多推理后端支持:支持 llama-box(基于 llama.cpp 和 stable-diffusion.cpp)、vox-box 和 vLLM 作为推理后端。
  • 轻量级 Python 包:最小的依赖和操作开销。
  • OpenAI 兼容 API:提供兼容 OpenAI 标准的 API 服务。
  • 用户和 API 密钥管理:简化用户和 API 密钥的管理流程。
  • GPU 指标监控:实时监控 GPU 性能和利用率。
  • Token 使用和速率统计:有效跟踪 token 使用情况,并管理速率限制。

安装

Linux 或 macOS

GPUStack 提供了安装脚本,可以将其安装为 Linux 的 systemd 服务或 macOS 的 launchd 服务,默认端口为 80。要使用此方法安装 GPUStack,执行以下命令:

curl -sfL https://get.gpustack.ai | INSTALL_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple sh -s -
Windows

以管理员身份运行 PowerShell(避免使用 PowerShell ISE),然后执行以下命令安装 GPUStack:

$env:INSTALL_INDEX_URL = "https://pypi.tuna.tsinghua.edu.cn/simple"
Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

其他安装方式

有关手动安装、Docker 安装或详细配置选项,请参考安装文档https://docs.gpustack.ai/latest/installation/installation-script/https://docs.gpustack.ai/latest/installation/installation-script/https://docs.gpustack.ai/latest/installation/installation-script/

本次实验选择linux安装

curl -sfL https://get.gpustack.ai | INSTALL_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple sh -s -  --port 9090

等待中...

安装完成

相关端口与进程都启动成功

访问GPUStack

在浏览器中打开 http://myserver,访问 GPUStack 界面。
访问地址: http://localhost:9090

使用“admin”用户名和默认密码登录 GPUStack。

获取默认密码

Linux or macOS

cat /var/lib/gpustack/initial_admin_password

Windows

Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw

部署模型

模型分类 根据自己想要的模型进行部署

选择好模型点保存

之后模型就会开始下载  (running既是代表可用)

模型资源占用情况

测试并发 可以四个问题同时回答

纳管多个GPU work节点

主节点获取token   cat /var/lib/gpustack/token

(base) root@DESKTOP-TUR5ISE:~# cat /var/lib/gpustack/token
8f297e35a55fa652837188acedfd8323

注册 Worker (注意:mytoken 为第一步获取到的 Token)

 

Linux 或 MacOS
curl -sfL https://get.gpustack.ai | sh -s - --server-url http://localhost:9090 --token ${mytoken}
Windows
Invoke-Expression "& { $((Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content) } --server-url http://localhost:9090 --token ${mytoken}"

加入一台同事的M2 Pro 芯片 mac电脑测试
work节点运行
 

pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simplecurl -sfL https://get.gpustack.ai | sh -s - --server-url http://10.176.20.121:9090 --token 8f297e35a55fa652837188acedfd8323

可以看到新增work

新增GPU

手动调度GPU运行模型

之后重新部署后生效

dify 添加 GPUStack API
 


http://www.ppmy.cn/devtools/156759.html

相关文章

python开发:爬虫示例——GET和POST请求处理

一、Get请求 import json import requests#输入示例:urlhttps://www.baidu.com #RequestHeader:F12标头-请求标头-原始-复制到这(忽略第一句) def GetRequest(url,RequestHeader""):try:dic{}RequestHeaderList RequestHeader.s…

产品经理的人工智能课 02 - 自然语言处理

产品经理的人工智能课 02 - 自然语言处理 1 自然语言处理是什么2 一个 NLP 算法的例子——n-gram 模型3 预处理与重要概念3.1 分词 Token3.2 词向量化表示与 Word2Vec 4 与大语言模型的交互过程参考链接 大语言模型(Large Language Models, LLMs)是自然语…

路由表转发表考研知识点

一、路由表(Routing Table) 1. 定义与作用 路由表是网络层(第三层)的核心数据结构,用于存储路径选择信息,决定数据包从源到目的地的传输路径。 核心功能:根据目的IP地址,选择最佳下…

如何打开vscode系统用户全局配置的settings.json

📌 settings.json 的作用 settings.json 是 Visual Studio Code(VS Code) 的用户配置文件,它存储了 编辑器的个性化设置,包括界面布局、代码格式化、扩展插件、快捷键等,是用户全局配置(影响所有…

《Hands-On Machine Learning with Scikit-Learn, Keras TensorFlow》第一章读书笔记

第一部分:理论篇 1. 什么是机器学习? 核心定义 机器学习是让计算机从数据中学习的科学,而无需显式编程。 经典定义 Arthur Samuel (1959): “让计算机无需明确编程就具备学习能力” Tom Mitchell 的工程定义: “如果一个程序通过经验 E 在某…

jvm知识点

一、jvm组成部分 程序计数器 JVM中的程序计数寄存器(Program Counter Register)中,Register的命名源于CPU的寄存器,寄存器存储指令相关的现场信息。CPU只有把数据装载到寄存器才能够运行。 作用 PC寄存器用来存储指向下一条指令…

【OpenGL】OpenGL游戏案例(二)

文章目录 特殊效果数据结构生成逻辑更新逻辑 文本渲染类结构构造函数加载函数渲染函数 特殊效果 为提高游戏的趣味性,在游戏中提供了六种特殊效果。 数据结构 PowerUp 类只存储存活数据,实际逻辑在游戏代码中通过Type字段来区分执行 class PowerUp …

Unity中的虚拟相机(Cinemachine)

Unity Cinemachine详解 什么是Cinemachine Cinemachine是Unity官方推出的智能相机系统,它提供了一套完整的工具来创建复杂的相机运动和行为,而无需编写大量代码。它能够大大简化相机管理,提高游戏开发效率。 Cinemachine的主要组件 1. Vi…