HuaWei、NVIDIA 数据中心 AI 算力对比

embedded/2024/12/29 6:02:34/

HuaWei Ascend 910B


Ascend 910B 是 HuaWei 于 2023 年推出的高性能 AI 处理器芯片,其对标产品为 Nvidia A100/A800,其算力表现如下:


  1. 峰值算力:Ascend 910B 的半精度(FP16)算力达到 256 TFLOPS(每秒 256 万亿次浮点运算)。
  2. 整数精度算力:Ascend 910B 的整数精度(INT8)算力达到 512 Tera-OPS。
  3. 单精度算力:Ascend 910B 的单精度(FP32)算力达到 128 TFLOPS。
  4. 能效比:Ascend 910B 的每瓦特性能达到 5.2 TFLOPS/W,相较于英伟达 A100 的每瓦特性能 4.7 TFLOPS/W,Ascend 910B 在能效上更优。
  5. 内存带宽:Ascend 910B 的内存带宽为 768 GB/s。
  6. 互连带宽:Ascend 910B 的芯片间互连带宽为 600GB/s,卡间互连带宽为 PCIe 4.0 x16,理论带宽 31.5GB/s。
  7. 功耗:Ascend 910B 的最大功耗为 350W。
  8. AI 算力对比:科大讯飞与华为联合优化后,在他们的场景中 Ascend 910B 已经达到 NVIDIA A100 的性能。

NVIDIA A100

数据精度A100 80GB PCIeA100 80GB SXM
FP649.7 TFLOPS9.7 TFLOPS
FP64 Tensor Core19.5 TFLOPS19.5 TFLOPS
FP3219.5 TFLOPS19.5 TFLOPS
Tensor Float 32 (TF32)156 TFLOPS312 TFLOPS
BFLOAT16 Tensor Core312 TFLOPS624 TFLOPS
FP16 Tensor Core312 TFLOPS624 TFLOPS
INT8 Tensor Core624 TOPS1248 TOPS
GPU Memory80GB HBM2e80GB HBM2e
GPU Memory Bandwidth1935 GB/s2039 GB/s
TDP 功耗300W400W
插槽类型PCIe 4.0SXM

NVIDIA H100

NVIDIA H100 Tensor Core GPU

数据精度H100 SXMH100 NVL
FP6434 TFLOPS30 TFLOPS
FP64 Tensor Core67 TFLOPS60 TFLOPS
FP3267 TFLOPS60 TFLOPS
TF32 Tensor Core989 TFLOPS835 TFLOPS
BFLOAT16 Tensor Core1979 TFLOPS1671 TFLOPS
FP16 Tensor Core1979 TFLOPS1671 TFLOPS
FP8 Tensor Core3958 TFLOPS3341 TFLOPS
INT8 Tensor Core3958 TOPS3341 TOPS
GPU Memory80GB94GB
GPU Memory Bandwidth3.35TB/s3.9TB/s
TDP 功耗700 W400 W
插槽类型SXMPCIe 5.0

基于 PCIe 的 NVIDIA H100 NVL(带有 NVLink 桥接)利用 Transformer Engine、NVLink 和 188GB HBM3 内存,在任何数据中心提供最佳性能和轻松扩展,使大型语言模型成为主流

NVIDIA H200

NVIDIA H200 Tensor Core GPU

数据精度H200 SXMH200 NVL
FP6434 TFLOPS30 TFLOPS
FP64 Tensor Core67 TFLOPS60 TFLOPS
FP3267 TFLOPS60 TFLOPS
TF32 Tensor Core989 TFLOPS835 TFLOPS
BFLOAT16 Tensor Core1979 TFLOPS1671 TFLOPS
FP16 Tensor Core1979 TFLOPS1671 TFLOPS
FP8 Tensor Core3958 TFLOPS3341 TFLOPS
INT8 Tensor Core3958 TOPS3341 TOPS
GPU Memory141GB141GB
GPU Memory Bandwidth4.8TB/s4.8TB/s
TDP 功耗700 W600 W
插槽类型SXMPCIe 5.0

基于 NVIDIA Hoppe 架构,NVIDIA H200 是首款提供 141GB(吉字节)HBM3e 内存、内存带宽达 4.8TB/s(太字节每秒)的 GPU

NVIDIA GB200 & GB200 NVL72

数据精度GB200 NVL72GB200
Configuration36 Grace CPU : 72 Blackwell GPUs1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core1440 PFLOPS40 PFLOPS
FP8/FP6 Tensor Core720 PFLOPS20 PFLOPS
INT8 Tensor Core720 POPS20 POPS
FP16/BF16 Tensor Core360 PFLOPS10 PFLOPS
TF32 Tensor Core180 PFLOPS5 PFLOPS
FP326480 TFLOPS180 TFLOPS
FP643240 TFLOPS90 TFLOPS
FP64 Tensor Core3240 TFLOPS90 TFLOPS
GPU MemoryUp to 13.5 TB HBM3eUp to 384 GB HBM3e
GPU Bandwidth576 TB/s16 TB/s
NVLink Bandwidth130TB/s3.6TB/s
CPU Core Count2592 Arm Neoverse V2 cores72 Arm Neoverse V2 cores
CPU MemoryUp to 17 TB LPDDR5XUp to 480GB LPDDR5X
CPU BandwidthUp to 18.4 TB/sUp to 512 GB/s

GB200 NVL72 架构组成:

  • 将 36 个 Grace Blackwell 超级芯片组合在一起,包含 72 个 Blackwell GPU 和 36 个 Grace CPU,通过第五代 NVLink 技术相互连接
  • 每个 Grace Blackwell 超级芯片包含两个高性能的 NVIDIA Blackwell Tensor Core GPU 和一个 NVIDIA Grace CPU,使用 NVIDIA NVLink-C2C 连接

码字不易,若觉得本文对你有用,欢迎点赞 👍、分享 🚀 ,相关技术热点时时看🔥🔥🔥​​​…



http://www.ppmy.cn/embedded/149653.html

相关文章

MySQL数据库函数——日期函数

常用的日期函数 函数功能curdate()返回当前日期curtime()返回当前时间now()返回当前日期和时间year(date)获取指定date的年份month(date)获取指定date的月份day(date)获取指定date的日期date_add(date,interval expr type)返回一个日期/时间值加上一个时间间隔expr后的时间值d…

【面试经典】多数元素

链接:169. 多数元素 - 力扣(LeetCode) 解题思路: 在本文中,“数组中出现次数超过一半的数字” 被称为 “众数” 。 需要注意的是,数学中众数的定义为 “数组中出现次数最多的数字” ,与本文定…

典型常见的基于知识蒸馏的目标检测方法总结二

来源:https://github.com/LutingWang/awesome-knowledge-distillation-for-object-detection收录的方法 NeurIPS 2017:Learning Efficient Object Detection Models with Knowledge Distillation CVPR 2017:Mimicking Very Efficient Networ…

【玩转OCR】 | 腾讯云智能结构化OCR在多场景的实际应用与体验

文章目录 引言产品简介产品功能产品优势 API调用与场景实践图像增强API调用实例发票API调用实例其他场景 结语相关链接 引言 在数字化信息处理的时代,如何高效、精准地提取和结构化各类文档数据成为了企业和政府部门的重要需求。尤其是在面对海量票据、证件、表单和…

Chromium GN 目标指南 - view_example 表单示例 (八)

1. 引言 在前面的文章中,我们学习了如何创建计数器示例,了解了如何使用 Label 和 Button 控件进行交互以及更新 UI 状态。在本篇文章中,我们将创建一个更复杂的示例 —— 表单,以学习如何使用 Textfield、Combobox 和 Checkbox 等…

Linux 下 Mamba 环境安装踩坑问题汇总(重置版)

导航 安装教程导航 Mamba 及 Vim 安装问题参看本人博客:Mamba 环境安装踩坑问题汇总及解决方法(初版)Linux 下Mamba 及 Vim 安装问题参看本人博客:Mamba 环境安装踩坑问题汇总及解决方法(重置版)Windows …

梳理你的思路(从OOP到架构设计)_设计模式Template Method模式

目录 1、Template Method模式 2、范例: Android TM模式 3、基于TM模式的扩充:以游戏的绘图循环(Game Loop)为例 4、Android中处处可见TM模型的应用 1、Template Method模式 在前面各节里,我们介绍过,控制反转(IoC:Inversion…

帝国CMS:如何去掉帝国CMS登录界面的认证码登录

如果在安装的时候,不小心选中了认证码选项,那么后面登录帝国后台都会要求输入认证码才能登录,如何去除这个设置呢,笔者以古诗词网 www.gushichi.com为例,为大家举例说明! 去除步骤如下: 1.前往…