最近白嫖几小时GPU:实例名称叫做 mig-3g.20gb
我很好奇mig是啥,群里有老铁说是拆分卡
查了一下叫多实例GPU,以下内容摘自NVIDIA官方参考资料
1. 概述
多实例 GPU (MIG) 扩展了每个 NVIDIA H100、A100 及 A30 Tensor Core GPU 的性能和价值。
MIG 可将 GPU 划分为最多达七个实例,每个实例均完全独立于各自的高带宽显存、缓存和计算核心。如此一来,管理员便能支持所有大小的工作负载,且服务质量 (QoS) 稳定可靠,让每位用户都能享用加速计算资源。
2. 优势概览
a. 扩展 GPU 的应用范围
借助 MIG 技术,您可以在单个 GPU 上获得多达原来 7 倍的 GPU 资源。MIG 为研发人员提供了更多的资源和更大的灵活性。
b. 优化 GPU 利用率
MIG 允许您灵活选择许多不同的实例大小,从而为每项工作负载提供适当规模的 GPU 实例,最终优化利用率并使数据中心投资充分发挥成效。
c. 同时运行工作负载
凭借 MIG,您能以确定性延迟和吞吐量,在单个 GPU 上同时运行推理、训练和高性能计算 (HPC) 工作负载。与时间分片不同,各工作负载并行运行,能够实现高性能。
3. 技术原理
若不使用 MIG,则同一 GPU 上运行的不同作业(例如不同的 AI 推理请求)会争用相同的资源。显存带宽更大的作业会占用其他作业的资源,导致多项作业无法达成延迟目标。借助 MIG,作业可同时在不同的实例上运行,每个实例都有专用的计算、显存和显存带宽资源,从而实现可预测的性能,同时符合服务质量 (QoS) 并尽可能提升 GPU 利用率。
(a). 根据需要置备和配置实例
一个 GPU 可划分成不同大小的 MIG 实例。例如,在 40GB 的 NVIDIA A100 中,管理员可以创建两个各有 20GB 内存的实例、三个各有 10GB 内存的实例、七个各有 5GB 内存的实例。或者可以创建混合在一起的实例。
管理员还可以动态地重新配置 MIG 实例,从而能根据不断变化的用户和业务需求调整 GPU 资源。
例如,白天可以使用七个 MIG 实例进行低吞吐量推理,而夜间可以重新配置为一个大型 MIG 实例,以进行深度学习训练。
(b). 安全地并行运行工作负载
每个 MIG 实例借助专用于计算、内存和缓存的硬件资源,从而能够提供稳定可靠的服务质量 (QoS) 和有效的故障隔离。这样一来,如果某个实例上运行的应用程序发生故障,并不会影响其他实例上运行的应用程序。
这还意味着,不同的实例可以运行不同类型的工作负载,包括交互式模型开发、深度学习训练、AI 推理或高性能计算应用程序等。由于这些实例并行运行,因此工作负载也在同一个物理 GPU 上同时运行,但它们彼此相互独立、隔离。
4. NVIDIA H100 中采用的 MIG
H100 由 NVIDIA Hopper™ 架构提供支持,通过在多达 7 个 GPU 实例的虚拟化环境中支持多租户、多用户配置,进一步增强了 MIG,在硬件和服务器虚拟化平台级别使用机密计算安全地隔离每个实例。借助每个 MIG 实例的专用视频解码器,在共享基础架构上提供安全、高吞吐量的智能视频分析 (IVA)。借助 Hopper 架构的并发 MIG 分析,管理员可以监控合适规模的 GPU 加速,并为多个用户分配资源。
对于工作负载较小的研究人员,不必租用完整的云实例,他们可以使用 MIG 安全地划出一部分 GPU,同时保证其数据在静态、传输和使用时安全无虞。这提高了云服务提供商的灵活性,以便他们可以根据需要进行定价并抓住小型客户带来的商机。