CPU和GPU计算的优缺点分析

CPU和GPU都是具有运算能力的芯片，CPU更像“通才”——指令运算(执行)为重+数值运算，GPU更像“专才”——图形类数值计算为核心。在不同类型的运算方面的速度也就决定了它们的能力——“擅长和不擅长”。芯片的速度主要取决于三个方面：微架构，主频和IPC(每个时钟周期执行的指令数)。

微架构

CPU微架构的设计是面向指令执行高效率而设计的，因而CPU是计算机中设计最复杂的芯片。和GPU相比，CPU核心的重复设计部分不多，这种复杂性不能仅以晶体管的多寡来衡量，这种复杂性来自于实现：如程序分支预测，推测执行，多重嵌套分支执行，并行执行时候的指令相关性和数据相关性，多核协同处理时候的数据一致性等等复杂逻辑。

GPU其实是由硬件实现的一组图形函数的集合，这些函数主要用于绘制各种图形所需要的运算。这些和像素，光影处理，3D坐标变换等相关的运算由GPU硬件加速来实现。图形运算的特点是大量同类型数据的密集运算——如图形数据的矩阵运算，GPU的微架构就是面向适合于矩阵类型的数值计算而设计的，大量重复设计的计算单元，这类计算可以分成众多独立的数值计算——大量数值运算的线程，而且数据之间没有像程序执行的那种逻辑关联性。

因此从微架构上看，CPU擅长的是像操作系统、系统软件和通用应用程序这类拥有复杂指令调度、循环、分支、逻辑判断以及执行等的程序任务。它的并行优势是程序执行层面的，程序逻辑的复杂度也限定了程序执行的指令并行性，上百个并行程序执行的线程基本看不到。GPU擅长的是图形类的或者是非图形类的高度并行数值计算，GPU可以容纳上千个没有逻辑关系的数值计算线程，它的优势是无逻辑关系数据的并行计算。

主频

GPU执行每个数值计算的速度并没有比CPU快，从目前主流CPU和GPU的主频就可以看出了，CPU的主频都超过了2GHz，甚至3GHz，而GPU的主频最高还不到2GHz，主流的也就1GHz。所以GPU在执行少量线程的数值计算时速度并不能超过CPU。

目前GPU数值计算的优势主要是浮点运算，它执行浮点运算快是靠大量并行，但是这种数值运算的并行性在面对程序的逻辑执行时毫无用处。

IPC（每个时钟周期执行的指令数）

这个方面，CPU和GPU无法比较，因为GPU大多数指令都是面向数值计算的，少量的控制指令也无法被操作系统和软件直接使用。如果比较数据指令的IPC，GPU显然要高过CPU，因为并行的原因。但是，如果比较控制指令的IPC，自然是CPU的要高的多。原因很简单，CPU着重的是指令执行的并行性。

另外，目前有些GPU也能够支持比较复杂的控制指令，比如条件转移、分支、循环和子程序调用等，但是GPU程序控制这方面的增加，和支持操作系统所需要的能力CPU相比还是天壤之别，而且指令执行的效率也无法和CPU相提并论。

总结一下：

CPU更适合处理逻辑控制密集的计算任务，而GPU适合处理数据密集的计算任务。并且由于现代CPU的发展，使得CPU与计算机主存的交换速度要远远大于GPU与计算机主存的交换速度，因此GPU更适合处理SIMD（SingleInstruction MultiData，单数据多指令）的运算，即将数据放到显存中进行多次计算的计算任务。
目前比较流行CPU+GPU的协同计算模型，在这个模型中，CPU与CPU协同工作，各司其职。CPU负责进行逻辑性强的事物处理和串行计算，GPU则专注于执行高度线程化的并行处理任务。CPU、GPU各自拥有相互独立的存储器地址空间：主机端的内存和设备端的显存。

CPU和GPU计算的优缺点分析

相关文章

GPU 计算能力（Compute Capability）那些事儿以及编译caffe/pytorch/tensorflow时怎样设置计算能力？

NVIDIA 不同显卡对应的GPU计算能力

近距离看GPU计算（2）

C# 调用GPU计算（Alea库、英伟达GPU）

Tensorflow多GPU计算

boost.compute使用gpu计算（c++）

GPU平台并行计算

Windows系统下实现Fortran语言的GPU计算