GPU上的基本线性代数
cuBLAS库提供了基本线性代数子例程(BLAS)的GPU加速实现。cuBLAS通过针对NVIDIA GPU进行了高度优化的嵌入式行业标准BLAS API来加速AI和HPC应用程序。cuBLAS库包含用于批处理操作,跨多个GPU的执行以及混合和低精度执行的扩展。使用cuBLAS,应用程序会自动受益于常规性能的改进和新的GPU架构。cuBLAS库包含在NVIDIA HPC SDK和CUDA Toolkit中。
cuBLAS多GPU扩展
cuBLASMg提供了最新的多GPU矩阵矩阵乘法,每个矩阵都可以2D块循环的方式在多个设备之间分配。cuBLASMg当前是CUDA数学库早期访问计划的一部分。
cuBLAS性能
cuBLAS库针对NVIDIA GPU的性能进行了高度优化,并利用张量内核加速了低精度和混合精度矩阵乘法。
cuBLAS的主要功能
• 全面支持所有152个标准BLAS例程
• 支持半精度和整数矩阵乘法
• 针对Volta和Turing张量Cores进行了优化的GEMM和GEMM扩展
• 针对各种深度学习模型中使用的大小调整了GEMM性能
• 支持CUDA流以进行并发操作