GPU 架构基础

news/2024/11/19 19:18:23/

1. 费米架构


FERMI架构图

SM

这里写图片描述

  • SM Streaming multi-processors with multiple processing cores
    • Each SM contains 32 processing cores
    • Executive in a Single Instruction Multiple Thread ( SIMT ) fashion
    • Up to 16 SM on a card for a maximum of 512 compute cores
    • Instruction Cache ?K 缓存指令
    • Warp Scheduler Warp 调度器
    • Dispatch Unit 将指令发送的要执行的warp中
    • Register File 寄存器文件
    • core 也叫 streaming processor,相当于CPU的ALU单元
    • LD/ST load 和 store 单元,负责访存
    • SFU special function unit 特殊函数单元 cos sin
    • L1 cache /shared mem 64K可配置

计算能力 2.x Fermi 关于cache 的描述

const cache

A multiprocessor also has a read-only constant cache that is shared by all functional units and speeds up reads 
from the constant memory space, which resides in device memory.

data cache

There is an L1 cache for each multiprocessor and an L2 cache shared by all multiprocessors, 
both of which are used to cache accesses to local or global memory, including temporary register spills. 
The cache behavior (e.g., whether reads are cached in both L1 and L2 or in L2 only) can be partially configured on 
a per-access basis using modifiers to the load or store instructionThe same on-chip memory is used for both L1 and shared memory: It can be configured as 48 KB of shared memory and 16 KB of L1 cacheor as 16 KB of shared memory and 48 KB of L1 cache, using cudaFuncSetCacheConfig()/cuFuncSetCacheConfig():

b) 开普勒架构
c) Maxwell
d) 最新的Pascal架构
e) 讲一下 sp sm sfu ld/st
f) Regeister file
g) Shared memory l1cache
h) l2cache
2. GPU计算流程
a) 取指令
b) 译码
c) 执行
d) 写回
e) Warp调度的特点
f) 内存请求合并的特点
g) Warp分歧的处理
3. 存储分层介绍 各层主要的特点,以及发现的问题
a) 片上存储
i. Register file
ii. Shared memory
iii. L1Dcache
iv. Bypass
b) 片外存储
i. L2cache
ii. DRAM 调度


http://www.ppmy.cn/news/377753.html

相关文章

读书笔记——并行处理器架构

本文是秦春林《全局光照技术》的一些阅读笔记,所有图片都是书里的,我啥版权都没。。 一、CPU 1、冯诺依曼架构 冯诺依曼架构中,数据总是存储在内存中,数据从内存传递到处理器的总时间可描述为一个固定和一个依赖数据大小的可变…

英伟达显卡不同架构_NVIDIA显卡架构代号的另一面:他们都是伟大的科学先驱

拼 命 加 载 中 ... 在上个周末如果你不剁手而是选择继续混迹各大DIY信息网站的话就会发现一条劲爆新闻:NVIDIA Volta架构之后又来一个Ampere(安培),不过在没有得到NVIDIA官方证实之前,我们都对这个消息持谨慎态度。NVIDIA一直使用科学家作为…

第八次作业

第一题 #include<stdio.h> int main() { int i,index,k,n,temp;int a[10]; scanf("%d",&n); for(i0;i<n;i) scanf("%d",&a[i]); for(k0;k<n-1;k){ indexk; for(ik1;i<n;i) if(a[i]>a[index]) indexi; tempa[index]; a[index]a[k…

英伟达显卡不同架构_【英伟达NVIDIA显卡GPU架构核心代号名称一览】(截止到 2018·08)...

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 Geforce系列丨核心代号 ( Code Name )丨 年代 ( time )丨 例 ( Instance ) 更早 丨(无科学家名称代号) 丨 远古~2006 丨 GeForce 7800 GTX 8000系 丨 特斯拉 ( Tesla ) 丨 2007~2008 丨 GeForce 8800 GTS 9000系 丨 特斯拉 ( Tesl…

负载均衡与服务器架构

2.5 WebServer、负载均衡、服务器架构 Nginx 与负载均衡 反向代理 将用户请求转发给内部服务器&#xff0c;保护内网拓扑结构 / static file /cache hit─>Redis/NoSQL/ // /Gunicorn Django-1─>cache m…

英伟达显卡不同架构_架构定输赢!盘点历代英伟达显卡能够成功亥市的根源

当我们评定一款显卡性能如何的时候&#xff0c;一般从核心频率、流处理器数量、显存、位宽、功耗等角度去衡量&#xff0c;但是在它们的背后&#xff0c;隐藏着真正的大boss&#xff0c;那就是显卡架构。无论英伟达还是AMD&#xff0c;每一代显卡都会及时对架构进行更新&#x…

GPU架构变迁之AI系统视角:从费米到安培

撰文 | 杨军 ‍每一代NV GPU的发布都会给业界带来新的想象空间。作为AI系统&#xff08;这里主要代指深度学习系统&#xff09;方向的从业者&#xff0c;最关心的自然是每一代GPU能够为AI系统领域带来哪些新的变量。 从之前NV GPU的甲方消费者&#xff0c;转变为现在的乙方提供…

NVIDIA GPU 架构梳理

文中图片大部分来自NVIDIA 产品白皮书 TODO&#xff1a;英伟达显卡型号梳理 目录&#xff1a; 一、NVIDIA GPU的架构演变历史 二、Tesla 架构 三、Fermi架构 四、Kepler架构 五、Maxwell架构 六、Pascal架构 七、Volta架构 八、Turing架构 九、Ampere架构 十、Hopper架构 一、N…