HuaWei、NVIDIA 数据中心 AI 算力对比

devtools/2024/12/27 11:06:49/

HuaWei Ascend 910B


Ascend 910B 是 HuaWei 于 2023 年推出的高性能 AI 处理器芯片,其对标产品为 Nvidia A100/A800,其算力表现如下:


  1. 峰值算力:Ascend 910B 的半精度(FP16)算力达到 256 TFLOPS(每秒 256 万亿次浮点运算)。
  2. 整数精度算力:Ascend 910B 的整数精度(INT8)算力达到 512 Tera-OPS。
  3. 单精度算力:Ascend 910B 的单精度(FP32)算力达到 128 TFLOPS。
  4. 能效比:Ascend 910B 的每瓦特性能达到 5.2 TFLOPS/W,相较于英伟达 A100 的每瓦特性能 4.7 TFLOPS/W,Ascend 910B 在能效上更优。
  5. 内存带宽:Ascend 910B 的内存带宽为 768 GB/s。
  6. 互连带宽:Ascend 910B 的芯片间互连带宽为 600GB/s,卡间互连带宽为 PCIe 4.0 x16,理论带宽 31.5GB/s。
  7. 功耗:Ascend 910B 的最大功耗为 350W。
  8. AI 算力对比:科大讯飞与华为联合优化后,在他们的场景中 Ascend 910B 已经达到 NVIDIA A100 的性能。

NVIDIA A100

数据精度A100 80GB PCIeA100 80GB SXM
FP649.7 TFLOPS9.7 TFLOPS
FP64 Tensor Core19.5 TFLOPS19.5 TFLOPS
FP3219.5 TFLOPS19.5 TFLOPS
Tensor Float 32 (TF32)156 TFLOPS312 TFLOPS
BFLOAT16 Tensor Core312 TFLOPS624 TFLOPS
FP16 Tensor Core312 TFLOPS624 TFLOPS
INT8 Tensor Core624 TOPS1248 TOPS
GPU Memory80GB HBM2e80GB HBM2e
GPU Memory Bandwidth1935 GB/s2039 GB/s
TDP 功耗300W400W
插槽类型PCIe 4.0SXM

NVIDIA H100

NVIDIA H100 Tensor Core GPU

数据精度H100 SXMH100 NVL
FP6434 TFLOPS30 TFLOPS
FP64 Tensor Core67 TFLOPS60 TFLOPS
FP3267 TFLOPS60 TFLOPS
TF32 Tensor Core989 TFLOPS835 TFLOPS
BFLOAT16 Tensor Core1979 TFLOPS1671 TFLOPS
FP16 Tensor Core1979 TFLOPS1671 TFLOPS
FP8 Tensor Core3958 TFLOPS3341 TFLOPS
INT8 Tensor Core3958 TOPS3341 TOPS
GPU Memory80GB94GB
GPU Memory Bandwidth3.35TB/s3.9TB/s
TDP 功耗700 W400 W
插槽类型SXMPCIe 5.0

基于 PCIe 的 NVIDIA H100 NVL(带有 NVLink 桥接)利用 Transformer Engine、NVLink 和 188GB HBM3 内存,在任何数据中心提供最佳性能和轻松扩展,使大型语言模型成为主流

NVIDIA H200

NVIDIA H200 Tensor Core GPU

数据精度H200 SXMH200 NVL
FP6434 TFLOPS30 TFLOPS
FP64 Tensor Core67 TFLOPS60 TFLOPS
FP3267 TFLOPS60 TFLOPS
TF32 Tensor Core989 TFLOPS835 TFLOPS
BFLOAT16 Tensor Core1979 TFLOPS1671 TFLOPS
FP16 Tensor Core1979 TFLOPS1671 TFLOPS
FP8 Tensor Core3958 TFLOPS3341 TFLOPS
INT8 Tensor Core3958 TOPS3341 TOPS
GPU Memory141GB141GB
GPU Memory Bandwidth4.8TB/s4.8TB/s
TDP 功耗700 W600 W
插槽类型SXMPCIe 5.0

基于 NVIDIA Hoppe 架构,NVIDIA H200 是首款提供 141GB(吉字节)HBM3e 内存、内存带宽达 4.8TB/s(太字节每秒)的 GPU

NVIDIA GB200 & GB200 NVL72

数据精度GB200 NVL72GB200
Configuration36 Grace CPU : 72 Blackwell GPUs1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core1440 PFLOPS40 PFLOPS
FP8/FP6 Tensor Core720 PFLOPS20 PFLOPS
INT8 Tensor Core720 POPS20 POPS
FP16/BF16 Tensor Core360 PFLOPS10 PFLOPS
TF32 Tensor Core180 PFLOPS5 PFLOPS
FP326480 TFLOPS180 TFLOPS
FP643240 TFLOPS90 TFLOPS
FP64 Tensor Core3240 TFLOPS90 TFLOPS
GPU MemoryUp to 13.5 TB HBM3eUp to 384 GB HBM3e
GPU Bandwidth576 TB/s16 TB/s
NVLink Bandwidth130TB/s3.6TB/s
CPU Core Count2592 Arm Neoverse V2 cores72 Arm Neoverse V2 cores
CPU MemoryUp to 17 TB LPDDR5XUp to 480GB LPDDR5X
CPU BandwidthUp to 18.4 TB/sUp to 512 GB/s

GB200 NVL72 架构组成:

  • 将 36 个 Grace Blackwell 超级芯片组合在一起,包含 72 个 Blackwell GPU 和 36 个 Grace CPU,通过第五代 NVLink 技术相互连接
  • 每个 Grace Blackwell 超级芯片包含两个高性能的 NVIDIA Blackwell Tensor Core GPU 和一个 NVIDIA Grace CPU,使用 NVIDIA NVLink-C2C 连接

码字不易,若觉得本文对你有用,欢迎点赞 👍、分享 🚀 ,相关技术热点时时看🔥🔥🔥​​​…



http://www.ppmy.cn/devtools/145796.html

相关文章

《英雄联盟》d3dcompiler_47.dll缺失是什么原因?d3dcompiler_47.dll缺失要怎么解决?

一、d3dcompiler_47.dll缺失的成因与影响 成因: DirectX版本不兼容:d3dcompiler_47.dll是DirectX的一个组件,负责Direct3D着色器编译。如果系统中安装的DirectX版本过低或过高,与游戏所需的版本不匹配,就可能导致d3d…

基于Spring Boot的工商局商家管理系统

一、系统背景与意义 随着市场经济的不断发展,商家数量日益增多,工商局对商家的管理需求也日益复杂。传统的管理方式存在诸多弊端,如信息不透明、管理效率低下等。因此,开发一种高效、便捷、智能化的工商局商家管理系统显得尤为重…

Linux 下的 GPT 和 MBR 分区表详解

在Linux系统中,分区表是描述存储设备上分区布局和属性的一种结构化数据。常见的分区表格式有MBR(Master Boot Record)和GPT(GUID Partition Table)。以下是这两种分区表的详解: MBR(Master Boot…

PTA数据结构编程题7-1最大子列和问题

我参考的B站up的思路 题目 题目链接 给定K个整数组成的序列{ N 1 ​ , N 2 ​ , …, N K ​ },“连续子列”被定义为{ N i ​ , N i1 ​ , …, N j ​ },其中 1≤i≤j≤K。“最大子列和”则被定义为所有连续子列元素的和中最大者。例如给定序列{ -2, 1…

Java中三大构建工具的发展历程(Ant、Maven和Gradle)

🐸 背景 我们要写一个Java程序,一般的步骤是编译,测试,打包。 这个构建的过程,如果文件比较少,我们可以手动使用java, javac,jar命令去做这些事情。但当工程越来越大,文件越来越多&#xff0c…

如何在 Linux 上使用 Rsync 同步本地和远程目录

简介 Rsync,即 remote sync 的缩写,是一个文件传输和同步工具,可以在两个目录之间安全地复制和同步文件。其中一个必须是源目录,另一个是目标目录,目标目录也可以是远程的。它使用一种增量传输算法,只发送…

论文解读 | 《濒危药用真菌桑黄合成功能性多糖和黄酮的研究》

论文作者:马小魁,张红 桑黄作为传统中药已有 2000 多年的历史,其主要用于活血、止血、止泻、脾虚泄泻等,现代技术检测分析发现桑黄含有多糖、黄酮、萜类化合物和甾体类化合物等活性成分,这种大型药用真菌,…

kong网关使用pre-function插件,改写接口的返回数据

一、背景 kong作为api网关,除了反向代理后端服务外,还可对接口进行预处理。 比如本文提及的一个小功能,根据http header某个字段的值,等于多少的时候,返回一个固定的报文。 使用到的kong插件是pre-function。 除了上…