【ARM】A64指令介绍及内存屏障和寄存器

server/2024/9/24 12:10:27/

A64指令集介绍

ISA : Instruction System Architecture
在这里插入图片描述

指令集总结

在这里插入图片描述

跳转指令

使用跳转指令直接跳转,跳转指令有跳转指令B,带链接的跳转指令BL ,带状态切换的跳转指令BX。
B 跳转指令,跳转到指定的地址执行程序。
BL 带链接的跳转指令。指令将下一条指令的地址拷贝到R14(即LR)链接寄存器中,然后跳转到指定地址运行程序。
BX 带状态切换的跳转指令。跳转到Rm 指定的地址执行程序,若Rm 的位[0]为1,则跳转时自动将CPSR 中的标志T 置位,即把目标地址的代码解释为Thumb代码;若Rm 的位[0]为0,则跳转时自动将CPSR 中的标志T 复位,即把目标地址的代码解释为ARM代码
条件跳转指令 : 5个
• b.cond label
• cbz Xn|Wn, label
• cbnz Xn|Wn, label
• tbz Xn|Wn, #uimm6, label //如果Xn的第uimm的bit位位0,则跳转到label
• tbnz Xn|Wn, #uimm6, label

无条件跳转label指令 : 2个
• b label
• bl label
无条件跳转register指令 : 3个
• br Xn
• blr Xn
• ret {Xn}

PC相对寻址

读取 PC 的方法是:PC 相对地址的指令(ADR, ADRP, literal load, and direct branches),以及branch-and-link指令(BL 和 BLR)会将PC地址存储在LR寄存器
• 修改程PC的方法是:
使用显式控制流指令:条件分支、无条件分支、异常生成和异常返回指令

• ADR指令
使用格式:adr register exper
编译时,首先会计算出当前PC到exper的偏移量#offset_to_exper
然后会用ADD或SUB指令,来替换这条指令;例如等效于:ADD register,PC,#offset_to_exper,register就是exper的地址;

• ADRP指令
使用格式:adrp register exper。编译时,首先会计算出当前PC到exper的偏移量#offset_to_exper,pc的低12位清零,然后加上偏移量,给register得到的地址,是含有label的4KB对齐内存区域的base地址;

系统操作指令

cache操作

在这里插入图片描述

地址翻译

在这里插入图片描述
在这里插入图片描述

内存访问指令

• Load-Store Single Register 单寄存器读写
• Load-Store Single Register (unscaled offset) offset为-256 ~ +256对齐读写
• Load Single Register (pc-relative, literal load)
• Load-Store Pair 双寄存器读写
• Load-Store Non-temporal Pair 直接读写外存,跳过cache
• Load-Store Unprivileged 以EL0身份读写
• Load-Store Exclusive 独占访问指
• Load-Acquire / Store-Release – 单项屏障指令-One-way barriers
• Prefetch Memory

Load-Store Single Register 单寄存器读写

• LDR Wt, addr //从由 addr 寻址的内存中加载一个字到 Wt
• LDR Xt, addr
• LDRB Wt, addr //从由 addr 寻址的内存中加载一个字节到 Wt,然后zero-extends it to Wt
• LDRSB Wt, addr //从由 addr 寻址的内存中加载一个字节到 Wt, 然后sign-extends it into Wt
• LDRSB Xt, addr //从由 addr 寻址的内存中加载一个字节到 Wt,然后zero-extends it to Xt
• LDRH Wt, addr //从 addr 寻址的内存中加载一个半字,然后将其零扩展到 Wt
• LDRSH Wt, addr //从 addr 寻址的内存中加载一个半字,然后将其符号扩展为 Wt。
• LDRSH Xt, addr //从由 addr 寻址的内存中加载一个半字,然后进行符号扩展它变成了 Xt。
• LDRSW Xt, addr //从由 addr 寻址的内存中加载一个字,然后将其符号扩展为Xt。
• STR Wt,addr //将 Wt 中的字存储到由 addr 寻址的内存中。
• STR Xt, addr //将来自 Xt 的双字存储到由 addr 寻址的内存中。
• STRB Wt,addr //将字节从 Wt 存储到由 addr 寻址的内存中。
• STRH Wt, addr //将来自 Wt 的半字存储到由 addr 寻址的内存中
• ldr{} Rd,
• str{} Rd,
• : b h sb sh sw

Load-Store Non-temporal Pair

直接读写外存,跳过cache
ldnp{} Rd,
• stnp{} Rd,
• : b h sb sh sw

Load-Store Unprivileged 以EL0身份读写

ldtr{} Rd,
• sttr{} Rd,
• : b h sb sh sw

Load-Store Exclusive 独占访问指令

• ldxr{} Rd,
• stxr{} Ws , Rd,
• ldxp{} Rd,
• stxp{} Ws, Rd,
• : b h sb sh sw

LDXR Wt, [base{,#0}]
(1)、从base地址处读取一个数字,存放到Wt寄存器中;
(2)、将Monitor变成exclusive状态

STXR Ws, Wt, [base{,#0}]
(1)、将Wt中的数据写入到base地址处,如果成功Ws返回0,否则返回1;
(2)、将Monitore从exclusive状态切换成open, 如果切换成功,则说明写入成功,Ws返回0;
如果切换失败,则数据不会写入到内存,Ws返回1

Load-Acquire / Store-Release – 单项屏障指令-One-way barriers

在这里插入图片描述
(Non-exclusive)
ldar{} Rd,
stlr{} Rd,

(exclusive)
ldaxr{} Rd,
stlxr{} Rd,
: b h sb sh sw

• 所有在LDAR之后的加载和存储指令,必需在LDAR之后才能被观察到
• 所有在STLR之前的加载和存储指令,必需在STLR之前观察到

数据操作指令

Data Processing (immediate)
• Arithmetic (immediate) 算数运算 : add、sub、cmp、cmn、mov
• Logical (immediate) 逻辑运算 : and eor orr movi tst
• Move (immediate) : mov movz movn movk
• Bitfield (operations) 位操作 : bfm sbfm ubfm bfe bfxil sbfiz sbfx ubfiz ubfx
• Shift (immediate) : asr lsl lsr ror
• Sign/zero extend : sxt uxt
• Data Processing (register)

Arithmetic (shifted register) : add sub cmn cmp neg
• Arithmetic (extending register) : add sub cmn cmp
• Logical (shifted register) : and bic eon eor orr orn mov mvn tst
• Shift (register) : asrv lslv lsrv rorv asr lsl lsr
• Bitwise operations : cls clz rbit rev rev16 rev32

算术操作

在这里插入图片描述

• add 加,
• adc 带进位的加,
• sub 减,
• sbc 带进位的减,
• neg 取反
• ngc 带进位的取反

逻辑操作

在这里插入图片描述
• and Bitwise AND
• bic Bitwise Bit Clear,
• eor Bitwise Exclusive OR,
• eon Bitwise Exclusive OR NOT,
• orr Bitwise OR,
• orn Bitwise OR NOT, and
• mvn Bitwise NO

数据移动操作

在这里插入图片描述

• mov Move,
• movz Move wide with zero,
• movn Move wide with NOT, and
• movk Move wide with keep

移位操作

• asr Arithmetic shift right,
• lsr Logical shift right, and
• lsl Logical shift left,
• ror Rotate right.

指令流水线

一般是三级指令流水线,第一级是Fetch,第二级是Decode,第三级是Issue。即取值、译码、发射。
对于ARM的AArch64,所有的cpu在取值和译码时都是顺序执行的,在发射时可能是乱序的。
在这里插入图片描述
• in-order:顺序流水线, 是指处理器按照它们在内存中出现的顺序发出指令(issue)。下一条指令不会早于上一条指令发出,但是如果是多pipeline的,那么一次还是可以发送多条指令的。所以即使它是顺序的还有可能第二条的load早于第一条的load。
• out-of-order: 乱序流水线, 是指处理器可以不按照指令在内存中的顺序发出(issue)指令。

Dual-pipeline 和 single-pipeline

Dual-pipeline的意思是每个pipeline上有两个,就如上图所示,如果是Dual-pipeline那么就会有两个load或者两个其他的。现在大多是都是single-pipeline,不理解也没关系。

in-order和out-of-order的执行原理

in-orde

顺序执行
在这里插入图片描述

IF:取值
D:译码
E:执行
M:访问内存
WB:写回,此时执行结束
上图的三条指令都是按顺序执行的,第一条去完指令之后,第二条才开始取值,然后第三条取值,然后依次进行下一步,在WB时也一样,先第一条执行,然后后面指令再依次执行,一步一步按顺序执行。

out-of-order

乱序执行
在这里插入图片描述
在这张图的三条指令中,在第一条指令未执行结束时,第二条指令就已经WB执行结束了。此时第一条指令还没执行完成,但是第三条指令又开始执行WB,接着第三条指令也执行结束,最后第一条指令执行完毕,这就是乱序执行。

DMB/DSB/ISB的介绍

由于很多处理器都是 Out-of-order execution(乱序执行)和 speculative execution(推测执行), 所以也意味着你的访问内存可能没有按照程序顺序进行 。 在大多数的情况下,我们都无需关心访问的顺序,但有些情况下却是不得不考虑,例如:
• 在不同的threads/cores之间共享数据
• 传递数据给peripherals, 如DMA操作
• 修改指令所在的内存,如load一个程序到RAM
• 修改内存管理方案,如context switching
(以上总结为: 不同observer之间共享数据时,需使用barries指令)

DMB– Data Memory Barrier:数据内存屏障,确保位于 “DMB 指令前的所有显式内存访问” 早于 " DMB 指令后的显示内存访问"( 注意:data cache的操作也被看做是显示的访问)。
DSB – Data Synchronization Barrier:数据同步屏障。
(1)位于此指令前的所有显式内存访问均完成。
(2)位于此指令前的所有缓存、跳转预测和 TLB 维护操作全部完( 注意:cache/TLB/branch的维护操作如果广播,那么要等待广播的完成)。
ISB – Instruction Synchronization Barrier:指令同步屏障。确保提取时间晚于 ISB 指令的指令能够检测到 ISB 指令执行前就已经执行的上下文更改操作的执行效果。

barries限定符

在这里插入图片描述
Load-Load/store:表示barries仅影响load,所有在barries之后的load/store,必须等待barries之前的load
Store-Store:表示barries仅影响store
Any-Any:表示既影响store,也影响load

one-way barries

LDR:后面的指令不能跑前面去,但是前面指令可以去后面,是单向的。
STR:前面的指令不能跑后面去,但是后面的指令可以去前面

ISB

Context‐changing 操作:
• Cache、TLB、分支预测维护操作
• 系统寄存器的改变(如 SCTLR_EL1,TCR_EL1、TTBRn_EL1…)

Context‐changing只有在下面事件之后才会被确认:
• taking一个异常
• 退出一个异常
• ISB

Instruction Synchronization Barrier (ISB)
• 确保ISB之后的指令 可以看到 ISB之前的Context‐changing
• 确保ISB之后的Context‐changing,仅影响ISB之后的指

内存属性:Device memory

Device-nGnRnE : 处理器必须严格按照代码中内存访问来进行、必须严格执行program order(无需重排序)、写操作的ack必须来自最终的目的地
Device-nGnRE : 处理器必须严格按照代码中内存访问来进行、必须严格执行program order(无需重排序)、写操作的ack可以来自中间的write buffer
Device-nGRE : 处理器必须严格按照代码中内存访问来进行、内存访问指令可以进行重排、写操作的ack可以来自中间的write buffer
Device-GRE : 处理器对多个memory的访问是否可以合并、内存访问指令可以进行重排、写操作的ack可以来自中间的write buffer
➨Gathering和non Gathering(G or nG):表示对多个memory的访问是否可以合并,如果是nG,表示处理器必须严格按照代码中内存访问来进行,不能把两次访问合并成一次。例如:代码中有2次对同样的一个地址的读访问,那么处理器必须严格进行两次read transaction
➨Reordering(R or nR):表示是否允许处理器对内存访问指令进行重排。nR表示必须严格执行program order
➨Early Write Acknowledgement(E or nE):PE访问memory是有问有答的(更专业的术语叫做transaction),对于write而言,PE需要write ack操作以便确定完成一个write transaction。为了加快写的速度,系统的中间环节可能会设定一些write buffer。nE表示写操作的ack必须来自最终的目的地而不是中间的write buffer

ARM架构中的寄存器

在这里插入图片描述
**寄存器的分类:**通用寄存器,状态寄存器,控制寄存器,特殊用途寄存器,系统寄存器。在 ARM 架构中,寄存器是 CPU 内部用于存储数据、地址和状态信息的关键组件。

通用寄存器

通用寄存器是一组用于存储数据和地址的寄存器。在 ARM 架构的不同版本中,这些寄存器的数量和命名有所不同。
R0-R15 (R0-R14 + PC):
在 ARMv7 和之前的版本中,有 16 个通用寄存器,编号从 R0 到 R15。
R0 到 R14 用于存储数据和地址。
R15 通常被称为程序计数器(PC),用于存储下一条指令的地址。
X0-X30 (X0-X29 + SP):
在 ARMv8 和之后的版本中,有 31 个通用寄存器,编号从 X0 到 X30。
X0 到 X29 用于存储数据和地址。
X30 通常被称为链接寄存器(LR),用于保存返回地址。
X31 通常被称为堆栈指针(SP),用于管理堆栈。

状态寄存器

状态寄存器用于存储 CPU 的状态信息,例如标志位、中断使能状态等。
Program Status Register (PSR):
PSR 是 ARM 架构中的一个重要的状态寄存器,包含了多个子寄存器,用于存储 CPU 的状态信息。
PSR 包括:
Application Program Status Register (APSR): 用于存储条件码标志位(如 N、Z、C、V 等)。
Implementation-defined Program Status Register (IPSR): 用于指示当前正在处理的中断。
Program Status Register (EPSR): 用于存储控制位,如中断使能位。

IPSR 用于指示当前正在处理的中断。
当 CPU 正在处理中断时,IPSR 中包含了中断的编号
当没有正在处理的中断时,IPSR 的值为 0。

I (Interrupt Disable): 如果置位,则禁用所有中断。
F (Fast Interrupt Disable): 如果置位,则禁用快速中断。
在这里插入图片描述
N (Negative): 如果最近的算术运算结果的最高位为 1,则置位。
Z (Zero): 如果最近的算术运算结果为 0,则置位。
C (Carry): 如果最近的算术运算产生了进位,则置位。
V (Overflow): 如果最近的算术运算产生了溢出,则置位。

控制寄存器

控制寄存器用于控制 CPU 的行为,如中断控制、调试控制等。
Control Register (CTRL): 用于控制某些 CPU 特性,如是否启用调试模式等。
Auxiliary Control Register (ACTLR): 用于控制辅助特性,如性能监控单元(PMU)等

特殊用途寄存器

除了通用寄存器和状态寄存器之外,ARM 架构还包括一些特殊用途的寄存器。

Stack Pointer (SP): 用于管理堆栈,通常映射到通用寄存器 X31/R13。
Link Register (LR): 用于保存返回地址,通常映射到通用寄存器 X30/R14。
Program Counter (PC): 用于存储下一条指令的地址,通常映射到通用寄存器 X15/R15。
System Register (SYSREG): 用于控制和监视 CPU 的各种特性和状态,如中断控制、缓存控制等。

SP 用于指示当前堆栈的顶部位置。
在函数调用期间,参数、局部变量以及返回地址都会被压入堆栈。
SP 的值会随着堆栈操作的变化而更新。

ARMv7 架构中的寄存器

在 ARMv7 架构中,有 16 个通用寄存器,编号从 R0 到 R15。这些寄存器主要用于存储数据、地址以及程序计数器等。

R0-R14:这些寄存器可以用于存储数据、地址等。它们在函数调用和数据处理中非常有用。
R0 到 R3 通常用于函数调用中的参数传递。
R4 到 R11 通常用于局部变量或函数内部使用的寄存器。
R12 通常用作临时寄存器或用于保存跨函数调用的数据。
R13 通常称为堆栈指针(SP),用于管理堆栈。
R14 通常称为链接寄存器(LR),用于保存返回地址。
R15 (PC):R15 通常称为程序计数器(PC),用于存储下一条指令的地址。

ARMv8 架构中的寄存器

在 ARMv8 架构中,通用寄存器的数量增加到了 31 个,编号从 X0 到 X30。此外,还引入了 32 位和 64 位寄存器的区分,分别称为 X 寄存器和 W 寄存器。

X0-X29:这些寄存器可以用于存储数据、地址等。它们在函数调用和数据处理中非常有用。
X0 到 X3 通常用于函数调用中的参数传递。
X4 到 X29 通常用于局部变量或函数内部使用的寄存器。
X30 通常称为链接寄存器(LR),用于保存返回地址。
X31 通常称为堆栈指针(SP),用于管理堆栈。
W0-W29:这些寄存器是 X0 到 X29 的低 32 位版本,用于兼容 32 位应用。


http://www.ppmy.cn/server/121341.html

相关文章

list从0到1的突破

目录 前言 1.list的介绍 2.list的常见接口 2.1 构造函数( (constructor)) 接口说明 2.2 list iterator 的使用 2.3 list capacity 2.4 list element access 2.5 list modifiers 3.list的迭代器失效 附整套练习源码 结束语 前言 前面我们学习…

Redis布隆过滤器

Redis布隆过滤器 Redis 布隆过滤器本身并不存储实际的数据。它的主要功能是通过位数组和哈希函数来检测某个元素是否可能在集合中。布隆过滤器的工作原理如下: 添加元素:当你向布隆过滤器中添加一个元素时,布隆过滤器会通过多个哈希函数计算出该元素的哈希值,并将这些哈希…

Llama 3.1 Omni:颠覆性的文本与语音双输出模型

你可能听说过不少关于语言模型的进展,但如果告诉你,有一种模型不仅能生成文本,还能同时生成语音,你会不会觉得特别酷?今天咱们就来聊聊一个相当前沿的项目——Llama 3.1 Omni模型。这个模型打破了传统的文字生成边界,直接让文本和语音同时输出,实现了真正的"多模态…

strtok 函数和strerror函数的使用

目录 前言一、strtok 函数的使⽤1.语法和参数2.使用举例3.for循环与strtok的结和 二、strerror 函数的使用1.语法和作用2.使用举例 总结 前言 这期我们来讲字符函数strtok和strerror函数的使用,话不多说,正文开始。 一、strtok 函数的使⽤ 1.语法和参数…

C++基础知识7 list

list 1. list的介绍及使用1.1 list的介绍1.2 list的使用1.2.1 list的构造1.2.2 list iterator的使用1.2.3 list capacity1.2.4 list element access1.2.5 list modifiers1.2.6 list的迭代器失效 2.1 模拟实现list 1. list的介绍及使用 1.1 list的介绍 1.2 list的使用 1.2.1 l…

基于C#+SQL Server(CS界面)学生选课及成绩查询管理系统

学生选课及成绩查询管理系统的设计与开发 1、项目背景 学生选课及成绩查询系统是一个学校不可缺少的部分,传统的人工管理档案的方式存在着很多的缺点,如:效率低、保密性差等,所以开发一套综合教务系统管理软件很有必要&#xff…

可视化大屏看阿里,阿里出品,必属精品。

阿里云有自己的可视化平台——dataV,经常会出一些高颜值、强交互的大屏,本期为大家分享一波。

【2025】中医药健康管理小程序(安卓原生开发+用户+管理员)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…