Nvidia GPU架构 - Cuda Core，SM，SP等等傻傻分不清？

news/2025/4/1 5:17:18/

背景

在深度学习大热的年代，并行计算也跟着火热了起来。深度学习变为可能的一个重要原因就是算力的提升。作为并行计算平台的一种，GPU及其架构本身概念是非常多的。下面就进行一个概念阐述，以供参考。

GPU：显存+计算单元

GPU从大的方面来讲，就是由显存和计算单元组成：

显存（Global Memory）：显存是在GPU板卡上的DRAM，类似于CPU的内存，就是那堆DDR啊，GDDR5啊之类的。特点是容量大（可达16GB），速度慢，CPU和GPU都可以访问。
计算单元（Streaming Multiprocessor）：执行计算的。每一个SM都有自己的控制单元（Control Unit），寄存器（Register），缓存（Cache），指令流水线（execution pipelines）。

我们可以看一下图：
这里写图片描述

所以其实Global Memory的真身就是那个内存颗粒。
来看下GPU里边的东西，是时候对密集恐惧症患者放出大招了：

这个是英伟达PASCAL架构的GP100 GPU的架构。由非常多的Streaming Multiprocesser组成的（里边的各种外设先不说了）。下面我们看一下Streaming Multiprocessor的内容。

Streaming Multiprocessor (SM)

下面这个图是SM：
这里写图片描述
在GP100里，每一个SM有两个SM Processing Block（SMP），里边的绿色的就是CUDA Core，CUDA core也叫Streaming Processor（SP），这俩是一个意思。每一个SM有自己的指令缓存，L1缓存，共享内存。而每一个SMP有自己的Warp Scheduler、Register File等。要注意的是CUDA Core是Single Precision的，也就是计算float单精度的。双精度Double Precision是那个黄色的模块。所以一个SM里边由32个DP Unit，由64个CUDA Core，所以单精度双精度单元数量比是2:1。LD/ST 是load store unit，用来内存操作的。SFU是Special function unit，用来做cuda的intrinsic function的，类似于__cos()这种。