宣布推出NVIDIA DGX GH200:首款100TB显卡显存系统

news/2024/12/28 11:06:06/


在 COMPUTEX 2023 上,NVIDIA 发布了 NVIDIA DGX GH200 ,这标志着 GPU 加速计算的又一次突破,为要求最严苛的巨型 AI 工作负载提供支持。 除了描述 NVIDIA DGX GH200 架构的关键方面外,本文还讨论了 NVIDIA Base Command 如何实现快速部署、加速用户入职并简化系统管理。

过去 7 年来,GPU 的统一内存编程模型一直是复杂加速计算应用取得各种突破的基石。 2016 年,NVIDIA 推出了 NVLink 技术和带有 CUDA-6 的统一内存编程模型,旨在增加 GPU 加速工作负载的可用内存。

从那时起,每个 DGX 系统的核心都是基板上的 GPU 复合体,基板上与 NVLink 互连,其中每个 GPU 都可以以 NVLink 速度访问对方的内存。 许多此类带有 GPU 复合体的 DGX 通过高速网络互连,形成更大的超级计算机,例如 NVIDIA Selene 超级计算机 。 然而,一类新兴的巨型万亿参数 AI 模型要么需要几个月的训练时间,要么即使在当今最好的超级计算机上也无法解决。

为了帮助需要先进平台来解决这些非凡挑战的科学家,NVIDIA 将 NVIDIA Grace Hopper Superchip 与 NVLink 开关系统配对,在 NVIDIA DGX GH200 系统中整合了多达 256 个 GPU。 在 DGX GH200 系统中,GPU 共享内存编程模型可通过 NVLink 高速访问 144 TB 内存。

与单个 NVIDIA DGX A100 320 GB 系统 相比,NVIDIA DGX GH200 通过 NVLink 为 GPU 共享内存编程模型提供了近 500 倍的内存,形成了一个巨大的数据中心大小的 GPU。 NVIDIA DGX GH200 是第一台突破 GPU 通过 NVLink 访问内存的 100 TB 障碍的超级计算机

图 1. NVLink 进展带来的 GPU 内存增益

NVIDIA DGX GH200系统架构

NVIDIA Grace Hopper Superchip 和 NVLink Switch System 是 NVIDIA DGX GH200 架构的构建块。 结合了 Grace 和 Hopper 架构, NVIDIA Grace Hopper Superchip 使用NVIDIA NVLink-C2C 以提供 CPU + GPU 一致性内存模型。 由第四代 NVLink 技术提供支持的 NVLink 开关系统将 NVLink 连接扩展到超级芯片,以创建无缝、高带宽、多 GPU 系统。

NVIDIA DGX GH200 中的每个 NVIDIA Grace Hopper Superchip 都有 480 GB LPDDR5 CPU 内存,每 GB 的功率是 DDR5 和 96 GB 的快速 HBM3 的八分之一。 NVIDIA Grace CPU 和 Hopper GPU 与 NVLink-C2C 互连,以五分之一的功率提供比 PCIe Gen5 多 7 倍的带宽。

NVLink 交换机系统形成了一个两级、无阻塞、胖树 NVLink 结构,可在 DGX GH200 系统中完全连接 256 个 Grace Hopper 超级芯片。 DGX GH200 中的每个 GPU 都可以 900 GBps 访问其他 GPU 的内存和所有 NVIDIA Grace CPU 的扩展 GPU 内存。

托管 Grace Hopper Superchips 的计算底板使用用于第一层 NVLink 结构的定制线束连接到 NVLink 开关系统。 LinkX 电缆扩展了 NVLink 结构第二层的连接性。
图 2. 包含 256 个 GPU 的 NVIDIA DGX GH200 上完全连接的 NVIDIA NVLink 交换机系统的拓扑结构
在 DGX GH200 系统中,GPU 线程可以使用 NVLink 页表寻址来自 NVLink 网络中其他 Grace Hopper 超级芯片的对等 HBM3 和 LPDDR5X 内存。 NVIDIA Magnum IO 加速库优化 GPU 通信以提高效率,增强所有 256 个 GPU 的应用程序扩展。

配对 DGX GH200 中的每个 Grace Hopper Superchip 都与一个NVIDIA ConnectX-7 网络适配器和一个 NVIDIA BlueField-3 NIC 。 DGX GH200 拥有 128 TBps 对分带宽和 230.4 TFLOPS 的 NVIDIA SHARP 网内计算,可加速 AI 中常用的集体操作,并通过减少集体操作的通信开销,将 NVLink 网络系统的有效带宽提高一倍。

为了扩展到超过 256 个 GPU,ConnectX-7 适配器​​可以互连多个 DGX GH200 系统以扩展到更大的解决方案。 BlueField-3 DPU 的强大功能可将任何企业计算环境转变为安全且加速的虚拟私有云,使组织能够在安全的多租户环境中运行应用程序工作负载。

目标用例和性能优势

GPU 内存的代际飞跃显着提高了受 GPU 内存大小瓶颈的 AI 和 HPC 应用程序的性能。 许多主流 AI 和 HPC 工作负载可以完全驻留在单个 NVIDIA DGX H100 的聚合 GPU 内存中。 对于此类工作负载,DGX H100 是性能效率最高的训练解决方案。

其他工作负载——例如具有 TB 级嵌入式表的深度学习推荐模型 (DLRM)、TB 级图形神经网络训练模型或大型数据分析工作负载——使用 DGX GH200 可实现 4 至 7 倍的加速。 这表明 DGX GH200 是更高级的 AI 和 HPC 模型的更好解决方案,这些模型需要海量内存来进行 GPU 共享内存编程。

白皮书中详细描述了加速机制 NVIDIA Grace Hopper Superchip Architecture 。
图 3. 大内存 AI 工作负载的性能比较

专为要求最严苛的工作负载而设计

DGX GH200 中的每个组件都经过精心挑选,以最大限度地减少瓶颈,同时最大限度地提高关键工作负载的网络性能,并充分利用所有扩展硬件功能。 结果是线性可扩展性和海量共享内存空间的高利用率。

为了充分利用这个先进的系统,NVIDIA 还构建了一个极高速的存储结构,以峰值容量运行并处理各种数据类型(文本、表格数据、音频和视频)——并行且稳定表现。

全栈 NVIDIA 解决方案

DGX GH200 附带 NVIDIA Base Command ,其中包括针对 AI 工作负载优化的操作系统、集群管理器、加速计算的库、存储和网络基础设施,这些都针对 DGX GH200 系统架构进行了优化。

DGX GH200 还包括 NVIDIA AI Enterprise ,提供一套优化的软件和框架,以简化 AI 开发和部署。 这种全堆栈解决方案使客户能够专注于创新,而不必担心管理其 IT 基础架构。
图 4. NVIDIA DGX GH200 AI 超级计算机完整堆栈包括 NVIDIA Base Command 和 NVIDIA AI Enterprise


http://www.ppmy.cn/news/370648.html

相关文章

Material—— RBD(Houdini To UE)

Houdini刚体碎块导入UE,有两个方面需还原,一是材质还原,一是动态还原; 一,ABC to UE 材质方面,Houdini里的每个Primtive Group属性,都表示UE内的对应材质球;导入时勾选Find Material…

Spark集群部署和启动与关闭

上一篇我们讲了Hadoop集群部署和启动与关闭,今天我们讲一下Spark集群部署和启动与关闭。首先我们先来了解一下Spark集群部署模式,分别有以下三种: Standalone   Standalone(独立模式)是Spark一种简单的集群部署模式&…

Python之快速排序

算法思路: 我们首先判断数组是否只有一个元素或没有元素,如果是则直接返回原数组。否则,我们选择一个基准值(这里我们选择数组的第一个元素),并将数组分为两个部分:小于基准值和大于基准…

[srpingboot]菜鸟学习-ReSTful

REST即表述性状态转移(英文:Representational State Transfer,简称REST),是一种针对网络应用的设计和开发方式,可以降低开发的复杂性,提高系统的可伸缩性。它主要描述了资源的表述以及资源之间的…

htc e9刷android6,HTC One E9+(E9pw 联通4G)刷机图文详解教程

玩安卓手机最大的乐趣当然就是刷机了,为了让HTC One E9(E9pw 联通4G)手机变的更快,我们通常都会通过刷机来提高HTC One E9(E9pw 联通4G)手机的运行速度,下面跟大家分享怎么用奇兔刷机对HTC One E9(E9pw 联通4G)进行一键刷机,具体步…

htc x920e刷android7.0,HTC X920e (Butterfly)一键刷机图文教程

经常会有机友提问,我的HTC X920e (Butterfly)手机支不支持一键刷机?由于奇兔刷机已经支持多达上千款安卓手机一键刷机,所以有时候小编也无法及时回答上来,最简单的办法就是把手机连上奇兔刷机,即可看到手机是否支持一键刷机。一键…

linux提取手机rom,xp系统下面(android)安卓手机刷机ROM教程

第 2 页 从官方RUU刷机程序中提取 从官方RUU刷机程序中提取官方原版ROM: 第一步:下载官方RUU刷机程序(EXE文件) 第二步:运行您已经下载的RUU刷机程序 (例如:RUU_Legend_hTC_Asia_TW_1.31.709.2_Radio_47.26.35.04_7.05.35.26L_rel…

android手机各大分区详解

1. bootloader 当我们拿到一款手机,第一件事应该就是按下电源键开机,那么从开机到进入到桌面程序这中间发生了些什么呢,我们从下面这张简化了的手机结构图开始: 注意:该结构图并不反映手机的实际分区顺序和位置&#x…