LLama 3 跨各种 GPU 类型的基准测试

server/2024/9/23 11:17:21/

2024 年 4 月 18 日,AI 社区对 Llama 3 70B 的发布表示欢迎,这是一款最先进的大型语言模型 (LLM)。该型号是 Llama 系列的下一代产品,支持广泛的用例。该模型 istelf 在广泛的行业平台上表现良好,并提供了新功能,包括改进的推理。

在之前的博客文章中,我们研究了使用推理引擎对 Llama 3 的量化和非量化版本执行推理的知名应用程序。我们在第 1 部分介绍了量化版本,在第 2 部分介绍了非量化版本。研究的重点是研究什么是最简单、性能最好的引擎,可以将 Llama 3 作为 API 端点。这篇文章着眼于此项目的下一次迭代,并着眼于不同 GPU 类型的性能。

经过测试的 GPU

在深入研究结果之前,让我们简要介绍一下我们测试过的 GPU:

  • NVIDIA A6000:以其高内存带宽和计算能力而闻名,广泛用于专业图形和 AI 工作负载。
  • NVIDIA L40:专为企业 AI 和数据分析而设计,提供均衡的性能。
  • NVIDIA A100 PCIe:用于 AI 和高性能计算的多功能 GPU,采用 PCIe 外形尺寸。
  • NVIDIA A100 SXM4:A100 的另一种变体,针对 SXM4 外形尺寸的最大性能进行了优化。
  • NVIDIA H100 PCIe:该系列的最新产品,拥有更高的性能和效率,专为 AI 应用程序量身定制。

基准测试方法论

我们可以使用许多不同的引擎和技术来判断各种 GPU 的性能。我们决定利用 Hugging Face Text Generation Inference (TGI) 引擎作为为 Llama 3 提供服务的主要方式。这样做有一个主要原因。它是我们见过的唯一一个提供基准测试机制的推理引擎。

TGI 提供的基准测试允许查看批量大小、预填充和解码步骤。这是查看每秒平均、最小和最大令牌以及 p50、p90 和 p99 结果的绝佳方式。如果您想了解更多关于如何通过 TGI 进行基准测试的信息,请联系我们,我们很乐意为您提供帮助。

结果

RTX A6000

图:4xA6000 上的基准测试

L40型

Figure: Benchmark on 4xL40

A100 PCIe

Figure: Benchmark on 2xA100

A100 SXM4

Figure: Benchmark on 2xA100

H100 PCIe

图:2xH100 上的基准测试

长期以来,A100 都被认为是在大模型生产系统中的不二之选。

结论

Hugging Face TGI 提供了一种一致的机制,可以在多种 GPU 类型上进行基准测试。根据这些结果的性能,我们还可以计算出最经济高效的 GPU 来运行 Llama 3 的推理端点。了解这些细微差别有助于在部署 Llama 3 70B 时做出明智的决策,确保您获得最佳性能和投资价值。

 


http://www.ppmy.cn/server/103892.html

相关文章

<数据集>水面垃圾识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:4308张 标注数量(xml文件个数):4308 标注数量(txt文件个数):4308 标注类别数:1 标注类别名称:[Trash] 序号类别名称图片数框数1Trash43085593 使用标注工具&#x…

番外-PyTorch细节知识

文章目录 一、torch.nn.Parameter1.1 Parameter与buffer的区别1.2 nn.Module类中实现注册Parameter的机制 二、Pytorch 中的 Tensor , Variable & Parameter2.1 Tensor2.2 Variable2.3 Parameter 三、pytorch的常用函数总结3.1 .data 与 .detach3.2 .scatter 与 ._scatter3…

【Protobuf】Protobuf进阶

Protobuf进阶 一、默认值二、更新消息1、规则介绍2、实例代码 三、保留字段四、未知字段1、 如何获取未知字段2、提取未知字段3、意义 五、option选项1、 选项介绍2、 选项分类3、常用选项列举4、设置自定义选项 一、默认值 前面我们说过:对于proto3的语法来说mess…

ant design pro 中用户的表单如何控制多个角色

ant design pro 如何去保存颜色ant design pro v6 如何做好角色管理ant design 的 tree 如何作为角色中的权限选择之一ant design 的 tree 如何作为角色中的权限选择之二ant design pro access.ts 是如何控制多角色的权限的 看上面的图片 当创建或编辑一个用户时,…

AI + 3D 机器人视觉领域综合资源库

随着人工智能技术的不断发展,3D 机器人视觉领域已经成为了一个备受关注的研究方向。在这个领域中,研究者们致力于探索如何让机器人更好地理解三维空间,从而实现更加智能和灵活的操作。为了方便大家学习和研究,这里介绍一个全面的资源库——Awesome Robotics 3D,它汇集了最…

Axure中跨页面动态面板状态设置的实现方法

在Axure中实现跨页面设置动态面板状态,主要依赖于全局变量的使用以及页面加载时的交互设置。以下是一个详细的步骤说明: 一、定义全局变量 首先,在Axure的顶部菜单中找到【项目】下的【全局变量】,这里可以定义你需要使用的全局…

编程思维模式比编程语言内容等更重要也更难传授-2024-机器人篇

历程 在2015年起步,然后不断迭代更新优化。 2019:机器人编程实践-ROS2基础与应用- 第四版纲要 里面的重点就是机器人编程的方法论! 2022:机器人编程实践-ROS2基础与应用-第⑦版 2022:ROS2机器人编程实践基础与应用…

【系统分析师】-综合知识-计算机网络与信息安全

1、要对消息明文进行加密传送,当前通常使用的加密算法是 报文认证算法:数字摘要 RSA 非对称加密,一般不用于明文 MD5 数字摘要 SHA-1 数字摘要,160位的消息摘要 HMAC 以一个密钥和一个消息为输入,生成一个消息摘要作…