ubuntu安装k8s+docker运行英伟达gpu cuda

news/2024/9/13 0:29:46/ 标签: java, 开发语言

 安装k8s+docker

sealos resetsealos run registry.cn-shanghai.aliyuncs.com/labring/kubernetes-docker:v1.27.7 registry.cn-shanghai.aliyuncs.com/labring/helm:v3.9.4 registry.cn-shanghai.aliyuncs.com/labring/cilium:v1.13.4 --single
英伟达Ubuntu驱动下载地址:https://us.download.nvidia.cn/XFree86/Linux-x86_64/550.78/NVIDIA-Linux-x86_64-550.78.run./NVIDIA-Linux-x86_64-550.78.runnvidia-smiFri Jul 12 23:18:31 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.78                 Driver Version: 550.78         CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce GTX 1060 6GB    Off |   00000000:02:00.0  On |                  N/A |
| 38%   39C    P8              8W /  150W |     273MiB /   6144MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------++-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A       969      G   /usr/lib/xorg/Xorg                            184MiB |
|    0   N/A  N/A      1597      G   /usr/bin/gnome-shell                           65MiB |
|    0   N/A  N/A      2143      G   ...in/bin/sunloginclient --cmd=autorun         11MiB |
|    0   N/A  N/A      2379      G   ...) Chrome/58.0.3029.81 Safari/537.36          1MiB |
|    0   N/A  N/A      2405      G   ...en=DA4D3A8EA9B98D974368ACD3390ED795          5MiB |distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update --fix-missing
sudo apt-get install -y nvidia-container-toolkit nvidia-docker2
sudo apt-get --only-upgrade install nvidia-docker2sudo mkdir -p /etc/docker
sudo tee /etc/docker/daemon.json <<-'EOF'
{"registry-mirrors": ["https://yxzrazem.mirror.aliyuncs.com"]
}
EOF
sudo systemctl daemon-reload
sudo systemctl restart dockersudo docker run --rm -it --gpus all nvidia/cuda:11.8.0-devel-ubuntu22.04 /bin/bash

kubernetes 使用运行时 docker,需要编辑通常存在的配置文件 /etc/docker/daemon.json, 以设置 nvidia-container-runtime 为默认的低级运行时:

{
    "default-runtime": "nvidia",
    "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}


然后重新启动 docker:

sudo systemctl restart docker

NVIDIA 设备插件

安装工作的 CUDA 驱动程序、设置 NVIDIA 容器工具包和将 containerd 配置为使用 NVIDIA 运行时环境,我们现在可以使用其 Helm chart 来应用 NVIDIA 设备插件。

代码语言:javascript

复制

helm repo add nvdp https://nvidia.github.io/k8s-device-plugin
helm repo update
helm upgrade -i nvdp nvdp/nvidia-device-plugin \--namespace nvidia-device-plugin \--include-crds \--create-namespace \--version 0.14.3
时间切片(可选)

NVIDIA 设备插件的默认行为是将整个 GPU 分配给单个 pod,这意味着如果有多个 pod 请求 GPU 时间,每次只会调度一个 pod。

为了克服这个问题,我们可以配置 GPU 的时间切片,即 GPU 在 pod 之间共享。

首先创建一个 ConfigMap,配置最大 10 个副本(第 14 行)来配置时间切片。

代码语言:javascript

复制

# cm-time-slicing.yaml
apiVersion: v1
kind: ConfigMap
metadata:name: cm-time-slicingnamespace: nvidia-device-plugin
data:time-slicing: |-version: v1sharing:timeSlicing:resources:- name: nvidia.com/gpureplicas: 10

然后应用 ConfigMap,并通过名称(第 5 行)和提供的默认配置键(第 8 行)配置 nvidia-device-plugin 使用它。

代码语言:javascript

复制

kubectl apply -f cm-time-slicing.yamlhelm upgrade nvdp nvdp/nvidia-device-plugin \--reuse-values \--set config.name=cm-time-slicing \--set config.default=time-slicing

现在您应该通过运行下面的命令看到每个节点每个 GPU 有 10 个 nvidia.com/gpu 的容量:

代码语言:javascript

复制

kubectl get node -o 'jsonpath={.items[*].status.capacity}' | jq

代码语言:javascript

复制

{..."nvidia.com/gpu": "10",...
}

请注意,工作负载从同一 GPU 获取副本,每个工作负载都可以访问相同的 GPU 内存,并在同一故障域中运行,这意味着如果一个工作负载崩溃,它们都会崩溃。

有关配置设备插件的更多详细信息,请参阅 GitHub 上的自述文件。

运行工作负载

假设配置都正常,我们现在可以尝试运行一个测试工作负载,通过启动一个请求 GPU 资源的 pod 来使用 GPU(第 11-13 行)。

代码语言:javascript

复制

apiVersion: v1
kind: Pod
metadata:name: cuda-vectoraddnamespace: cuda-test
spec:restartPolicy: OnFailurecontainers:- name: cuda-vectoraddimage: "nvcr.io/nvidia/k8s/cuda-sample:vectoradd-cuda11.7.1-ubuntu20.04"resources:limits:nvidia.com/gpu: "1"

代码语言:javascript

复制

kubectl create ns cuda-test
kubectl apply -f cuda-vectoradd.yaml

如果一切顺利,工作负载的日志应该显示:

代码语言:javascript

复制

kubectl logs -n cuda-test cuda-vectoradd
[Vector addition of 50000 elements]
... Test PASSED

如果一切正常,只需在每个您想要访问 GPU 资源的工作负载上添加 nvidia.com/gpu 的资源限制即可。

代码语言:javascript

复制

resources:limits:nvidia.com/gpu: "1"

查看请求 GPU 资源的 pod 内部,我们也会发现两个与 NVIDIA 相关的环境变量:

代码语言:javascript

复制

kubectl exec -it <pod> -- env | grep NVIDIA
NVIDIA_DRIVER_CAPABILITIES=compute,video,utility
NVIDIA_VISIBLE_DEVICES=GPU-<UUID>

这表明我们在 pod 中有可用的 GPU 加速计算和视频编码/解码。

故障排除

如果您遇到类似的 pod 启动错误:

代码语言:javascript

复制

0/1 nodes are available: 1 Insufficient nvidia.com/gpu. preemption: 0/1 nodes are available: 1 No preemption victims found for incoming pod..

可能是您没有足够的 GPU 资源,请尝试从“时间切片”部分增加时间切片副本数量,或者购买另一个 GPU,无论对您更划算。

我也遇到过这样的错误,即在重新启动节点后,多个长时间运行的工作负载试图启动时发生错误。重新启动 nvidia-device-plugin pod 和请求 GPU 资源的工作负载似乎可以解决该问题。

使用 Argo CD,我添加了一个负的 sync-wave 注解,以确保在工作负载之前启动 nvidia-device-plugin 以避免此问题。

代码语言:javascript

复制

annotations:argocd.argoproj.io/sync-wave: "-1"

附录

我首先尝试使用 NVIDIA GPU Operator,我认为这是一个全能的解决方案,它可以安装设备插件以及驱动程序和容器工具包。但是,我无法让它工作,所以我选择了不幸更多的手动方法,将设备插件、驱动程序和容器工具包作为单独的组件进行安装。

可能是我的设置问题,或者我在文档中理解错了什么。如果您有解决方案,我很乐意倾听!

总结

我正在使用 Argo CD 与 Kustomize + Helm 尝试遵循 GitOps 最佳实践。 在撰写本文时,我的完整家庭实验室配置可在 GitHub 上作为参考。

代码语言:javascript

复制

# kustomization.yaml
apiVersion: kustomize.config.k8s.io/v1beta1
kind: Kustomization
commonAnnotations:argocd.argoproj.io/sync-wave: "-1"resources:- namespace.yaml- cm-time-slicing.yamlhelmCharts:- name: nvidia-device-pluginrepo: https://nvidia.github.io/k8s-device-pluginversion: 0.14.2releaseName: "nvidia-device-plugin"namespace: nvidia-device-pluginincludeCRDs: truevaluesFile: values.yaml

代码语言:javascript

复制

# namespace.yaml
apiVersion: v1
kind: Namespace
metadata:name: nvidia-device-plugin

代码语言:javascript

复制

# values.yaml
config:name: cm-time-slicingdefault: time-slicing

代码语言:javascript

复制

# cm-time-slicing.yaml
apiVersion: v1
kind: ConfigMap
metadata:name: cm-time-slicingnamespace: nvidia-device-plugin
data:time-slicing: |-version: v1sharing:timeSlicing:resources:- name: nvidia.com/gpureplicas: 10

http://www.ppmy.cn/news/1475252.html

相关文章

鸿蒙系统创建签名文件及使用创建签名文件打包并安装

* 第一步 第二步&#xff1a;创建.p12文件&#xff0c;点击New如果有的话就Choose Existing 填好下面信息 点击Next进入到下面界面 开始生成csr文件如下图 点击OK–>Finish 文件保存在了下面目录 第三步 1.访问华为开发者平台&#xff0c;登录开发者账号&#xff0c;进…

重点区域分布式无人机探测防御系统详解

重点区域分布式无人机探测防御系统采用模块化设计&#xff0c;结合先进的传感技术、通信技术和数据处理技术&#xff0c;实现对无人机的高效探测与防御。系统架构由无人机探测模块、数据分析中心、防御与反制模块以及用户交互界面四大部分组成。系统特点包括分布式部署、高灵敏…

目前分布式光纤测温系统的主流架构有哪些?

分布式光纤测温技术的主流架构&#xff0c;历经多个阶段的发展和演变&#xff0c;每种架构都有其独特的特点和优势。回顾过去的发展历程&#xff0c;我们可以看到三种主要架构的演进&#xff0c;每一次创新都在不同程度上推动了技术的进步和市场的发展。 首先&#xff0c;2005…

[Elasticsearch]ES近似实时搜索的原因|ES非实时搜索的原因|ES Near real-time search

Elasticsearch-专栏&#x1f448;️ 往期回顾&#xff1a; ES单一查询定义&#x1f448;️ ES深分页问题&#x1f448;️ ES商城搜索实战&#x1f448;️ ES环境搭建:单节点模式/集群模式&#x1f448;️ ES开启认证&#x1f448;️ 近似实时搜索&#xff08;Near real-t…

光学传感器图像处理流程(一)

光学传感器图像处理流程&#xff08;一&#xff09; 1. 处理流程总览2. 详细处理流程2.1. 图像预处理2.1.1. 降噪处理2.1.2. 薄云处理2.1.3. 阴影处理 2.2. 辐射校正2.2.1. 辐射定标2.2.2. 大气校正2.2.3. 地形校正 2.3. 几何校正2.3.1. 图像配准2.3.2. 几何粗校正2.3.3. 几何精…

切割01串(牛客小白月赛98)

题意&#xff1a; 给三个整数n&#xff0c;l&#xff0c;r&#xff0c;和一个字符串s&#xff0c;满足l<|c0-c1|<r就可以切成字符串a和字符串b&#xff0c;c0为字符串a左侧出现0的次数&#xff0c;c1为字符串b右侧出现1的次数&#xff0c;求最多切割次数 知识点&#x…

HTML5新增的input元素属性:placeholder、required、autofocus、min、max等

HTML5 大幅度地增加与改良了 input 元素的属性&#xff0c;可以简单地使用这些属性来实现 HTML5 之前需要使用 JavaScript 才能实现的许多功能。 下面将详细介绍这些新增的 input 元素的属性。 属性说明属性说明placeholder在输入框显示描述性或提示性文本autocomplete是否保…

Java常用的API_02(正则表达式、爬虫)

Java正则表达式 七、正则表达式7.1 格式7.1.1 字符类注意字符类示例代码1例2 7.1.2 预定义字符预定义字符示例代码例2 7.1.3 区别总结 7.2 使用Pattern和Matcher类与直接使用String类的matches方法的区别。&#xff08;1&#xff09; 使用Pattern和Matcher类示例代码 &#xff…

使用Spring Boot创建自定义Starter

Spring Boot的起步依赖&#xff08;Starter&#xff09;简化了Spring应用的开发&#xff0c;提供了一组默认的库和配置。自定义Starter可以帮助你封装通用功能&#xff0c;便于在多个项目中重用。本文将详细介绍如何创建和使用自定义Spring Boot Starter。 一、什么是Spring B…

springboot增加过滤器后中文乱码

记录一下小问题 public class RepeatableHttpServletWrapper extends HttpServletRequestWrapper {private byte[] body;public RepeatableHttpServletWrapper(HttpServletRequest request) throws IOException {super(request);request.setCharacterEncoding("UTF-8&q…

物联网可编程中央控制主机

物联网可编程中央控制主机&#xff08;Programmable Central Control Host for IoT&#xff0c;如GF-MAXCC&#xff09;在多个领域都有广泛的应用。这些应用领域包括但不限于&#xff1a; 1. 智能家居 GEFFEN在智能家居系统中&#xff0c;物联网可编程中央控制主机充当着家庭…

批量制作word表格

问题背景 将excel表中的成绩内容制作为成绩单&#xff0c;每页对应一个学员的成绩&#xff0c;方便打印 代码实现 ## 导入包 import pandas as pd from docx import Document from docx.enum.text import WD_ALIGN_PARAGRAPH,WD_LINE_SPACING# 读取 Excel 内容 df pd.read_e…

巴基斯坦火爆的slots游戏借力Facebook广告获客优势分析

巴基斯坦火爆的slots游戏借力Facebook广告获客优势分析 在巴基斯坦&#xff0c;Slots游戏凭借其独特的魅力和玩法&#xff0c;深受玩家的喜爱。而在众多的推广渠道中&#xff0c;Facebook广告代投凭借其显著的优势&#xff0c;成为了Slots游戏在巴基斯坦市场推广的重要选择。以…

文心一言使用指南

文心一言使用指南 文心一言是百度推出的一款大语言模型&#xff0c;具备跨模态、跨语言的深度语义理解与生成能力。以下是文心一言的详细使用指南&#xff0c;帮助用户快速上手并充分利用其功能。 一、注册与登录 注册账号&#xff1a; 访问文心一言的官方网站或应用商店&am…

稀疏建模介绍,详解机器学习知识

目录 一、什么是机器学习&#xff1f;二、稀疏建模介绍三、Lasso回归简介四、Lasso超参数调整与模型选择 一、什么是机器学习&#xff1f; 机器学习是一种人工智能技术&#xff0c;它使计算机系统能够从数据中学习并做出预测或决策&#xff0c;而无需明确编程。它涉及到使用算…

力扣第226题“翻转二叉树”

在本篇文章中&#xff0c;我们将详细解读力扣第226题“翻转二叉树”。通过学习本篇文章&#xff0c;读者将掌握如何使用递归和迭代的方法来翻转二叉树&#xff0c;并了解相关的复杂度分析和模拟面试问答。每种方法都将配以详细的解释&#xff0c;以便于理解。 问题描述 力扣第…

Eureka 介绍与使用

Eureka 是一个开源的服务发现框架&#xff0c;它主要用于在分布式系统中管理和发现服务实例。它由 Netflix 开发并开源&#xff0c;是 Netflix OSS 中的一部分。 使用 Eureka 可以方便地将新的服务实例注册到 Eureka 服务器&#xff0c;并且让其他服务通过 Eureka 服务器来发现…

智能家居开发新进展:乐鑫 ESP-ZeroCode 与亚马逊 ACK for Matter 实现集成

日前&#xff0c;乐鑫 ESP-ZeroCode 与亚马逊 Alexa Connect Kit (ACK) for Matter 实现了集成。这对智能家居设备制造商来说是一项重大进展。开发人员无需编写固件或开发移动应用程序&#xff0c;即可轻松设计符合 Matter 标准的产品。不仅如此&#xff0c;开发者还可以在短短…

grafana数据展示

目录 一、安装步骤 二、如何添加喜欢的界面 三、自动添加注册客户端主机 一、安装步骤 启动成功后 可以查看端口3000是否启动 如果启动了就在浏览器输入IP地址&#xff1a;3000 账号密码默认是admin 然后点击 log in 第一次会让你修改密码 根据自定义密码然后就能登录到界面…

pdf工具

iLovePDF | 为PDF爱好者提供的PDF文件在线处理工具 https://www.ilovepdf.com/zh-cn 图片 pdf 合并成一个pdf也可以拆分