数据中心 GPU 的对决:A100 与 V100S
在这篇博客文章中,我们在 NVIDIA A100 GPU 上针对 TensorFlow 进行了深度学习性能基准测试。我们还将这些 GPU 与它们的顶级前身 Volta 驱动的 NVIDIA V100S 进行了比较。
我们的深度学习服务器配备了 8个 NVIDIA A100 PCIe GPU。我们运行了在官方 TensorFlow github 中找到的标准“tf_cnn_benchmarks.py”基准测试脚本。我们测试的神经网络有:ResNet50、ResNet152、Inception v3、Inception v4。此外,我们使用 1、2、4 和 8 个 GPU 配置运行了相同的测试。确定的批量大小是可以容纳可用 GPU 内存的最大批量。
要点和观察
- NVIDIA A100 是一款出色的深度学习 GPU,其性能在前几代产品中是前所未有的。
- NVIDIA A100 使用 FP16 和 FP32 可以很好地扩展到 8 个 GPU(我们可能测试过更多)。
- 与 V100S 相比,在大多数情况下,A100 的性能是 FP16 和 FP32 的 2 倍。
NVIDIA A100 深度学习基准 FP16