[每周一更]-(第94期)：认识英伟达显卡

在这里插入图片描述

英伟达显卡：引领图形计算的领先者，显卡也常称为GPU（图形处理器 Graphics processing unit），是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上执行绘图运算工作的微处理器。以图形处理器为核心的主板扩展卡也称显示卡或“显卡”。

英伟达（NVIDIA）是全球领先的人工智能计算公司，其显卡产品在图形处理、深度学习、科学计算等领域具有举足轻重的地位。英伟达的显卡产品以其出色的性能、高度的可靠性和广泛的应用领域而闻名于世。以下是对英伟达显卡的介绍、参数指标、性能以及市场常见的对比。

做显卡目前市面上出名的就是：英伟达和AMD，自己的两台主机上也分别配置的有英伟达的GTX1060和1050Ti（现在消费级都已经40系，自感落伍），AMD的显卡早起有用过,如Radeon HD 7790，英伟达是专注做显卡，而AMD不光显卡，还有CPU还很顶，前几期之前也有介绍；

显卡的常见使用场景是：剪辑、游戏、计算等，详细的就如下：

游戏： 游戏是显卡最为常见的使用场景之一。显卡负责处理图形渲染，将游戏中的虚拟场景和角色呈现在显示器上。高性能的显卡可以提供更流畅、更逼真的游戏画面和更高的帧率，提升游戏体验。
图形设计和数字内容创作： 图形设计师、动画师、影视制作人等专业人士常常使用显卡进行图形渲染、视频编辑和3D建模等工作。显卡提供了强大的图形处理能力，加速了设计和创作过程，并提高了工作效率。
科学计算和工程仿真： 显卡不仅可以用于图形处理，还可以用于科学计算和工程仿真。GPU加速技术可以大幅提高计算密集型任务的运行速度，包括分子动力学模拟、气候模拟、流体动力学仿真等领域。
深度学习和人工智能： 显卡在深度学习和人工智能领域也发挥着重要作用。由于深度学习算法的并行计算特性，GPU的并行计算能力能够大幅加速训练和推理过程，成为深度学习模型训练的重要工具。
数据可视化和大数据分析： 在数据科学领域，显卡可以用于数据可视化、大数据分析和数据挖掘等任务。通过GPU加速技术，可以更快地处理大规模数据集，并通过可视化方式展现数据分析结果。
虚拟现实和增强现实： 虚拟现实（VR）和增强现实（AR）技术需要大量的图形处理能力来实时渲染虚拟场景和交互元素。显卡可以提供高性能的图形处理，为VR和AR应用提供流畅的用户体验。

1. 介绍

英伟达的显卡产品主要分为消费级和专业级两大类别。消费级显卡主要面向游戏玩家和普通消费者，提供了高性能的图形处理能力和优秀的游戏体验；专业级显卡则主要面向科研、工程设计、数字内容创作等专业领域，具有更高的计算性能和可靠性。

2.种类

英伟达（NVIDIA）的显卡种类众多，涵盖了消费级、专业级和数据中心级等多个领域。以下是一些主要的英伟达显卡系列：

GeForce系列： 主要面向消费级市场，包括游戏玩家和个人用户。GeForce系列显卡拥有强大的图形处理性能，提供出色的游戏体验和图形渲染效果。常见的产品包括RTX 30系列（如RTX 3080、RTX 3070等）和GTX系列（如GTX 1660 Ti、GTX 1650等），最新是40系，如RTX 4090，从20系列产品新命名为RTX，而未沿用推出多年的GTX，以突显支援光线跟踪的特色。
Quadro系列： 面向专业级市场，包括设计师、工程师、数字内容创作者等专业用户。Quadro系列显卡具有优秀的计算性能和专业级的驱动支持，适用于CAD、CG、视频编辑等专业应用。
Tesla系列： 面向数据中心和高性能计算市场，用于机器学习、深度学习、科学计算等领域。Tesla系列显卡拥有强大的计算能力和高效的并行处理能力，支持CUDA和TensorFlow等深度学习框架。
TITAN系列： 旗舰级产品，面向高端消费者和专业用户。TITAN系列显卡集合了英伟达最先进的技术和性能，拥有超高的计算能力和显存容量，适用于高端游戏、深度学习、科学研究等领域。
Ampere架构： 是英伟达最新一代的GPU架构，采用了先进的光线追踪技术和AI加速器，提供了更高的性能和更低的功耗。Ampere架构显卡包括RTX 30系列和A100等产品。

3.市场常见的对比

在市场上，英伟达显卡通常与其主要竞争对手AMD的显卡进行对比。两者在性能、价格、功耗等方面都有各自的优势和特点。以下是英伟达显卡和AMD显卡常见的对比：

性能比较： 英伟达显卡在游戏性能和图形处理能力上通常表现更强，而AMD显卡在计算性能和成本效益上有一定优势。
功耗和散热： 英伟达显卡的功耗和散热控制通常较好，能够在更低的功耗下实现更高的性能，而AMD显卡在功耗和散热方面可能略逊一筹。
价格比较： 英伟达显卡通常定位在高端市场，价格相对较高，而AMD显卡在中低端市场具有更好的性价比。

总的来说，英伟达显卡以其优秀的性能、可靠性和广泛的应用领域而受到用户的青睐，不断推动着图形计算和人工智能技术的发展。在选择显卡时，用户可以根据自己的需求和预算考虑英伟达显卡以及其他竞争对手的产品，并进行综合评估和对比。

4.NVIDIA 架构演进过程

NVIDIA的GPU架构经历了多次演进，不断推动着图形处理和计算领域的发展。以下是NVIDIA GPU架构的演进过程的主要里程碑：

Tesla架构：

推出时间：2006年
Tesla架构是NVIDIA推出的第一个通用并行计算架构，为高性能计算和科学计算提供了强大的计算能力。Tesla架构引入了CUDA（Compute Unified Device Architecture）计算模型，为GPU计算的兴起奠定了基础。

Fermi架构：

推出时间：2010年
Fermi架构是NVIDIA第一代支持双精度浮点计算的GPU架构，提供了更高的计算性能和更广泛的应用领域。Fermi架构引入了NVIDIA的Parallel Thread Execution（PTX）指令集，为GPU计算的发展打开了新的可能性。

Kepler架构：

推出时间：2012年
Kepler架构是NVIDIA第一代支持动态并行调度的GPU架构，提供了更高的能效和更优化的性能。Kepler架构引入了GPU Boost技术，可以根据工作负载动态调整核心频率，提高了GPU的功效比。

Maxwell架构：

推出时间：2014年
Maxwell架构是NVIDIA注重能效和性能平衡的一代GPU架构，引入了多项能效优化技术和新的图形渲染技术。Maxwell架构支持Dynamic Super Resolution（DSR）和Multi-Frame Sampled Anti-Aliasing（MFAA）等新功能。

Pascal架构：

推出时间：2016年
Pascal架构是NVIDIA的第一代基于16nm FinFET工艺的GPU架构，具有更高的性能和更低的功耗。Pascal架构引入了NVIDIA的深度学习加速器（NVIDIA Deep Learning Accelerator），为深度学习应用提供了更强大的支持。

Volta架构：

推出时间：2017年
Volta架构是NVIDIA的下一代GPU架构，主要针对高性能计算和深度学习应用。Volta架构引入了Tensor Core加速器，支持深度学习矩阵运算，并提供了更高的计算性能和更强大的AI加速能力。

Turing架构：

推出时间：2018年
Turing架构是NVIDIA的下一代游戏和工作站GPU架构，引入了实时光线追踪技术（RTX）和人工智能加速器（Tensor Core）。Turing架构为游戏图形提供了更高的真实感和渲染效果，并提供了更强大的AI加速能力。

Ampere架构：

推出时间：2020年
Ampere架构是NVIDIA的最新一代GPU架构，采用了8nm制程工艺，引入了第二代Tensor Core和NVIDIA RT Core等新技术，提供了更高的计算性能和更强大的人工智能加速能力。Ampere架构主要用于数据中心、高性能计算和深度学习领域。

Hopper 架构:

推出时间：2022年
NVIDIA Hopper™ 架构的新一代加速计算平台。与上一代产品相比，该平台实现了数量级的性能飞跃。 Hopper 采用尖端台积电4 nm制程，配备超过800 亿个电晶体，具有五项突破性创新技术，是NVIDIA H200与H100 Tensor 核心GPU的动力所在，相互结合之下，相较于上一代NVIDIA Megatron 530B聊天机器人(全球最大的生成语言模型)，人工智慧推论的速度提升30 倍。NVIDIA Hopper 架构利用专为加速人工智慧模型训练而设计的Transformer Engine，进一步提升Tensor 核心技术。

5.显卡性能指标

显卡性能的指标有很多，以下是其中一些主要的指标：

CUDA核心数（NVIDIA）/ 流处理器数（AMD）： CUDA核心数或流处理器数是显卡中用于并行计算的处理单元数量。核心数越多，显卡的并行计算能力越强大，性能也通常更高。
显存容量： 显存容量决定了显卡可以处理的数据量大小。对于需要处理大型图像、视频或模型的任务，较大的显存容量可以提高性能和效率。
核心频率： 核心频率是指GPU核心的运行速度，通常以MHz或GHz为单位。较高的核心频率意味着GPU可以更快地处理图形和计算任务。
显存频率： 显存频率是显卡显存模块的运行速度，通常以GHz为单位。较高的显存频率可以提高数据传输速度，提高显卡的整体性能。
带宽： 显存带宽是指显卡与显存之间的数据传输速度，通常以GB/s为单位。较高的带宽可以提高数据传输效率，加快图形渲染和计算速度。
功耗（TDP）： TDP（Thermal Design Power）是显卡在满负荷运行时的最大热设计功耗，通常以瓦特（W）为单位。较高的功耗可能需要更好的散热系统，但也可能意味着更高的性能。
性能指标（例如FLOPS）： 性能指标用于评估显卡在不同工作负载下的性能表现，通常以每秒浮点运算次数（FLOPS）为单位。较高的性能指标意味着显卡在计算密集型任务中具有更好的性能。

6.英伟达和AMD的部分参数

NVIDIA GeForce RTX 3080：

VRAM容量：10GB GDDR6X
CUDA核心数：8704
核心频率：1440 MHz
显存频率：19 Gbps
TDP：320W
性能指标：29.8 TFLOPS（浮点计算性能）

NVIDIA GeForce RTX 3070：

VRAM容量：8GB GDDR6
CUDA核心数：5888
核心频率：1500 MHz
显存频率：14 Gbps
TDP：220W
性能指标：20.3 TFLOPS

NVIDIA GeForce RTX 3060 Ti：

VRAM容量：8GB GDDR6
CUDA核心数：4864
核心频率：1410 MHz
显存频率：14 Gbps
TDP：200W
性能指标：16.2 TFLOPS

AMD Radeon RX 6900 XT：

VRAM容量：16GB GDDR6
流处理器数：5120
核心频率：2015 MHz
显存频率：16 Gbps
TDP：300W
性能指标：23.0 TFLOPS

AMD Radeon RX 6800 XT：

VRAM容量：16GB GDDR6
流处理器数：4608
核心频率：2015 MHz
显存频率：16 Gbps
TDP：300W
性能指标：20.7 TFLOPS

参考

GeForce
图形处理器
hopper-architecture