趋动科技 OrionX on VMware 打造 AI 就绪平台

embedded/2024/10/19 23:28:15/

科技进步和产业变革的加速演进,人工智能(AI)已经成为兵家必争之地。今年以来伴随着ChatGPT带来的鲶鱼效应,人工智能成为科技产业创新的焦点,其应用范围越来越广泛,并将持续发展。科技产业龙头正加大在人工智能领域的军备竞赛。算法、数据、算力作为人工智能领域的三要素,也同时受到了业内关注。在政府、学术机构、企业等各个层面,AI都受到高度重视,其在学术研究、技术创新、人才教育等方面的发展都呈现全新发展态势。作为AI市场中的重要组成,以GPU技术为主的AI加速市场也得到了快速的发展,与此同时,由于GPU硬件价格昂贵,传统使用GPU算力的独占式使用方式缺乏灵活性和经济性,云原生技术的发展又催生了快速交付细粒度切分GPU算力的需求,所以市场上急需经济高效GPU算力池化方案。


VMware作为虚拟化与云原生技术的领导者,针对不同使用场景有对应的GPU资源技术方案。

趋动科技作为GPU池化技术领导者,自主研发的OrionX AI算力资源池化软件可以为企业用户构建数据中心级AI算力资源池和AI开发平台。OrionX将AI应用与物理算力资源解耦,并通过高效的通讯机制,使得AI应用、CUDA应用可以运行在云或者数据中心内任何一个物理机、Container或者VM内而无需挂载物理GPU。OrionX GPU池化软件的收益多多:

  • 兼容已有的AI应用和CUDA应用,使其仍然具有使用GPU加速的性能。
  • 为AI应用和CUDA应用在云和数据中心的部署提供了很大的灵活度,无需受GPU服务器位置、资源型号和数量的约束。
  • OrionX vGPU资源随AI应用和CUDA应用启动时分配,随应用程序退出时自动释放,减少GPU空闲时间,提高GPU的利用率。
  • 通过对GPU资源池的管理和优化,提高整个云和数据中心GPU的利用率和吞吐率。
  • 通过统一管理GPU,减轻GPU的管理复杂度和运维成本。

VMware此次联合趋动科技验证了在VMware Cloud Foundation(后面缩写为VCF)平台上提供GPU池化算力方案的能力,目的是更加灵活地为AI训练提供GPU算力,助力AI场景快速落地。

本次经过联合方案验证,主要是将OrionX与VMware VCF with Tanzu 结合部署,主要架构如下:

在整个方案验证中,VMware Tanzu Kubernetes Grid(后面缩写为 Tanzu TKG)提供了Kubernetes 运行环境,VMware Cloud Foundation 为Tanzu TKG 提供了底层IaaS平台,其中vSphere自动化置备Tanzu TKG节点虚拟机, vSAN为Kubernetes提供持久化存储服务, NSX为提供云内网络连接,NSX Advanced Load Balancer为Kubernetes提供负载均衡和应用发布服务。Harbor为整个台提供镜像仓储管理服务。OrionX提供GPU池化能力。Nvidia GPU通过直通模式透传给Tanzu TKG 的工作节点。

在本次方案验证中,我们主要涉及到以下场景:

  • GPU资源按需分配功能
  • GPU资源远程调用功能
  • 多用户GPU资源切分功能
  • 多用户GPU资源动态分配功能
  • 用户GPU资源独享功能
  • GPU加速任务等待功能
  • GPU加速任务优先级功能
  • GPU资源池切换功能
  • 本地和远程调用性能对比

方案验证中一些关键截图

Tanzu TKG 工作节点直通Nvidia T4 GPU卡:

Tanzu TKG 部署OrionX 运行截图:

OrionX 管理界面:

GPU分配及队列管理:

GPU 资源预留:

AI任务优先级排列:

OrionX 可灵活切换GPU卡是否打开虚拟化,而无需重启设备:

经过本地调用与远程调用性能对比,性能损耗约3%左右,损耗极低

经过本次的方案验证,得到如下一些结论

  • OrionX AI算力池化方案可以在VCF with Tanzu平台上正常稳定运行。
  • OrionX 对GPU池化能力灵活,可以灵活切分、预留、排队、控制任务优先级。
  • 本次VCF测试环境基于25G网络,在本地和远程调用,性能差异小,结果符合预期。

OrionX+ VCF with Tanzu为用户在AI学习场景提供了更加全面的解决方案,让企业内的 AI 用户共享数据中心内所有服务器上的 GPU 算力。AI 开发人员不必再关心底层资源状况,专注于更有价值的业务层面,让AI 开发变得更加高效和便捷。

更灵活:从基础计算、存储、网络、Kubernetes集群到GPU资源,都可以灵活置备,支持不同AI场景。

更高效:全面提升基础架构和GPU资源利用率,发挥最大效能。

更安全:细粒度用户管理,实现资源隔离,安全微分段,保障数据安全。

更便捷:熟悉的基础架构管理,图形化UI,AI任务管理更简单。

VMware vSphere with Tanzu及VCF with Tanzu等产品与趋动OrionX产品的兼容和适配,将更好地支撑企业级客户AI应用的快速发展。

原文作者:卢洋、刘博
文章来源:趋动科技 OrionX on VMware 打造 AI 就绪平台 - VMware 中文博客 https://blogs.vmware.com/china/


http://www.ppmy.cn/embedded/100503.html

相关文章

计算机毕业设计选题推荐-产品订单管理系统-产品销售管理系统-Java/Python项目实战

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

SAM 2——视频和图像实时实例分割的全新开源模型

引言 源码地址:https://github.com/facebookresearch/segment-anything-2 过去几年,人工智能领域在文本处理的基础人工智能方面取得了显著进步,这些进步改变了从客户服务到法律分析等各个行业。然而,在图像处理方面,我…

【数模修炼之旅】08 支持向量机模型 深度解析(教程+代码)

【数模修炼之旅】08 支持向量机模型 深度解析(教程代码) 接下来 C君将会用至少30个小节来为大家深度解析数模领域常用的算法,大家可以关注这个专栏,持续学习哦,对于大家的能力提高会有极大的帮助。 1 支持向量机模型…

vscode运行已编译好的程序

假设我有一个项目,已经编译好了,需要调试,用gdb命令行调试不熟悉,还是用vscode来调试比较好。 编写Launch.json: {"version": "0.2.0","configurations": [{"name": "(gdb) Launc…

3.5mm耳机插头制作手机内录线电路图

1.背景 无人直播或录屏直播手机mic会对外界声音的录入,而且很嘈杂。 2.实现功能 手机酷狗播放音频,同时手机内打开录音软件录音,同一台手机操作。 3.电路图 接线分为2种,国标和美标,自己尝试,肯定有一…

openai whisper使用

whisper使用 介绍 Whisper是一种通用的语音识别模型。它是在大量不同音频数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 GitHub:https://github.com/openai/whisper 论文链接:https://arx…

计算机网络速成(三)

一、网络协议与模型 什么是协议? 协议是指计算机系统中完成特定任务所必需的规则和约定,特别是数据传输和交换的规则和约定。OSI和TCP/IP是什么? OSI(开放式系统互连参考模型)是一种网络架构模型,将网络系…

c++每日练习记录5-(链表的结尾指向nullptr)

解题方法&#xff1a;双指针法 ListNode *partition(ListNode *head, int x){ListNode *head1 new ListNode(0);ListNode *head2 head1;ListNode *head3 new ListNode(0);ListNode *head4 head3;while (head! nullptr){if (head->val < x){head1->next head;head…