作者:一只大喵咪1201
专栏:《理解ARM架构》
格言:你只管努力,剩下的交给时间!

目录

  • 直接操作寄存器点亮LED灯
  • 地址空间
  • ARM内部的寄存器
  • 汇编指令
    • ⚽内存访问指令
      • 四种栈
    • ⚽数据处理指令
    • ⚽跳转指令
    • ⚽伪指令
  • 汇编和反汇编
  • C与汇编
    • ⚽Flash上的内容
  • 纯汇编点灯
  • 总结

直接操作寄存器点亮LED灯

在学习C语言的时候,我们会写个Hello World程序来入门,当我们写ARM程序,也该有一个简单的程序引领我们入门,这个程序就是点亮LED。

查看原理图,确定控制LED的引脚:


如上图是四种常见的LED驱动电路:

方式1:使用引脚输出3.3V点亮LED,输出0V熄灭LED。
方式2:使用引脚拉低到0V点亮LED,输出3.3V熄灭LED。

  • 有的芯片为了省电等原因,其引脚驱动能力不足,这时可以使用三极管驱动。

方式3:使用引脚输出1.2V点亮LED,输出0V熄灭LED。
方式4:使用引脚输出0V点亮LED,输出1.2V熄灭LED。

但是对于我们写程序来说,不用关心输出的是3.3V还是1.2V,只需要知道引脚输出的是高电平还是低电平,简称输出1或0。

  • 逻辑1–>高电平
  • 逻辑0–>低电平

芯片操作引脚:


如上图,本喵的STM32F103ZET6开发板上,控制引脚输出0点亮LED灯,这里仅控制Red的LED灯,操作的引脚是PB0。

  • 使能GPIOB组引脚:

从芯片手册上查找相关寄存器:


如上图是RCC_APB2ENR寄存器,用来控制不同组GPIO的使能,将该寄存器的bit3设置为1就使能了GPIOB。

那我们怎么找到这个寄存器呢?


如上图是不同寄存器所在的地址范围。Reset and clock control RCC是用来使能外设时钟的,它的基地址是0x40021000

又因为RCC_APB2ENR寄存器的偏移地址是0x18,所以该寄存器的绝对地址就是0x40021000 + 0x18

  • 设置GPIOB0为输出模式:


如上图,再从这张表中找到GPIOB的基地址是0x40010C00


如上图所示是GPIOx_CRL寄存器,x是引脚编号,本喵这里使用的是PB0,所以x就是0,需要配置MODE0CNF0。该寄存器的偏移量是0x00,所以该寄存器的绝对地址就是0x40010C00 + 0x00

MODE0的两个比特位配置为11,表示输出,并且输出速度设置最大,此时电平变化最快。

CNF0的两个比特位是配置输出模式的,这里仅是点灯,使用默认值即可。

  • 设置引脚电平:


如上图是GPIOx_ODR寄存器,用来控制引脚的输出电平,根据偏移地址得到它的绝对地址是0x40010C00 + 0x0C

由于是PB0,所以控制它的bit0ODR0即可,该位是1,输出1,该为是0,输出0。

要实现bit0 = 1或者bit0 = 0,不能直接GPIOx_ODR = 1,这样虽然能让bit0为1,但是该寄存器的其他位被置0了。

  • 操作寄存器的某一位时,不能影响其他位。

置一:GPIOx_ODR |= (1<<0)
置0:GPIOx_ODR &= ~(1<<0)

这样的方式就仅在操作bit0,其他位并不影响。


如上图所示GPIOx_BSRR寄存器,它的绝对地址是0x40010C00 + 0x10,对于PB0,只需要操作BS0位和BR0位。

BS0写1,输出1,BR0写1,输出0,这些位写0没有任何影响,此时就可以仅操作这一个寄存器即可,效率较高。

  • 编程:


如上图所示启动文件中的汇编代码,蓝色框中的是语法规定,必须有的,暂时不用管它。

板子一上电以后会去向量表__Vectors处开始执行代码,执行到DCD Reset_Handler后会开始调用我们自己写的函数mymain,在调用之前需要设置一下栈顶SP,然后BL跳转到我们自己写的函数中去执行。


如上图本喵自己实现的mymain.c函数中,先创建一个32位的指针变量pReg,用来访问寄存器。

  1. 让指针指向RCC_APB2ENR寄存器的地址0x40021000 + 0x18,将该寄存器的bit3置一,使能GPIOB。
  2. 让指针指向GPIOx_CRL寄存器的地址0x40010C00 + 0x00,将该寄存器的bit0置一,设置PB0为输出模式。
  3. 让指针指向ODR寄存器的地址0x40010C00 + 0x0C,将该寄存器的bit0设置为1,让PB0输出1,然后延时,再将bit0设置为0,然后再延时,如此反复。

然后编译工程,并将程序烧录到开发板中,可以看到板子上红色的LED灯在闪烁,本喵这里就不贴图了。

地址空间

ARM架构:

在上面点灯的过程中,本喵在访问寄存器的时候,完全就是在使用C语言的指针来访问内存地址,为什么这样做就可以访问到寄存器呢?

如上图示意图所示,在ARM架构的CPU中,内存RAM,各种片内外设,如UARTUSB控制器等都是统一编址的,它们的地址是连续的,从add1add6

CPU在访问不同的地址时,会将地址先发给内存控制器memeory controller,由内存控制器去访问地址读取数据。

  • 所以在CPU眼里,这些外设以及内存的访问方法都是一样的。

x86架构:


如上图所示是x86架构CPU访问内存和外设的示意图,这里的内存和IO空间中的外设就不是统一编址的,而是分隔开的。

内存的地址范围是0~4GB,IO空间的范围是0~64k,这两个空间在0~64K的地址范围是重复的,CPU通过不同指令来访问不同的空间。

当CPU要访问内存空间的时候,就使用MOV指令,当CPU要访问IO空间的时候,就使用IN指令。


精简指令集计算机:

ARM芯片属于精简指令集计算机(RISC:Reduced Instruction Set Computing),它所用的指令比较简单,有如下特点:
① 对内存只有读、写指令
② 对于数据的运算是在CPU内部实现
③ 使用RISC指令的CPU复杂度小一点,易于设计


如上图所示的乘法运算a = a * b,RISC中要使用4条汇编指令:

① 读内存a
② 读内存b
③ 计算a*b
④ 把结果写入内存

复杂指令集计算机:

x86属于复杂指令集计算机(CISC:Complex Instruction Set Computing),
它所用的指令比较复杂,比如某些复杂的指令,它是通过“微程序”来实现的。

比如执行乘法指令时,实际上会去执行一个“微程序”,在“微程序”里,
一样是去执行这4不操作:
① 读内存a
② 读内存b
③ 计算a*b
④ 把结果写入内存

但是对于程序员来说,他看不到“微程序”,他好像用一条指令就搞定了这一切!


这里提到x86架构以及CISC仅仅是为了和ARM架构以及RISC作一个对比,我们使用的是ARM架构以及RISC。

ARM内部的寄存器

ARM架构中对于数据的运算是在CPU内部实现的,在内部用什么来保存上面乘法运算中的a,b,以及a * b的结果呢?

cortex-M3/M4中寄存器示意图:


如上图所示是CPU中寄存器示意图。

CPU内部都有R0、R1、……、R15寄存器,它们可以用来“暂存”数据。

对于R13、R14、R15,还另有用途:

  • R13:别名SP(Stack Pointer),栈指针。
  • R14:别名LR(Link Register),用来保存返回地址。
  • R15:别名PC(Program Counter),程序计数器,表示当前指令地址,写入新值即可跳转。

其中R13就是汇编指令里使用的SP,但是它有两个寄存器,一般情况下使用的是SP_main寄存器,运行RTOS的时候,任务使用的是SP_process寄存器。

  • 在编程的时候直接使用SP,根据不同情况会自动调用相应的栈寄存器。


如上图所示,在程序执行的过程中,PC寄存器会按照顺序读取指令并去执行。


这16个寄存器之外还有一个xPSR寄存器,用来保存程序状态,保存上一条指令的执行结果,比如比较结果。还有一些控制作用,比如屏蔽中断、使能中断。

对于cortex-M3/M4来说,xPSR实际上对应3个寄存器:

① APSR:Application PSR,应用PSR
② IPSR:Interrupt PSR,中断PSR
③ EPSR:Exectution PSR,执行PSR


这3个寄存器的含义如上图所示,其实就是3个寄存器使用32位中的不同比特位,所以就用一个程序状态寄存器xPSR来表示了3个寄存器。


如上图所示就是组后和的真实寄存器。


如上图所示是xPSR寄存器中不同位所表示的意义。

这3个寄存器,可以单独访问,使用下面汇编指令:

  • MRS R0, APSR :读APSR
  • MRS R0, IPSR :读IPSR
  • MSR APSR, R0 :写APSR

这3个寄存器,也可以一次性访问:

  • MRS R0, PSR :读组合程序状态
  • MSR PSR, R0 :写组合程序状态

汇编指令

一开始,ARM公司发布两类指令集:

① ARM指令集,这是32位的,每条指令占据32位,高效,但是太占空间。
② Thumb指令集,这是16位的,每条指令占据16位,节省空间。

要节省空间时用Thumb指令,要效率时用ARM指令。

一个CPU既可以运行Thumb指令,也能运行ARM指令。通过程序状态寄存器中有一位,名为“T”,它等于1时表示当前运行的是Thumb指令。

现在有一种情况,函数A是使用Thumb指令写的,函数B是使用ARM指令写的,可以往PC寄存器里写入函数A或B的地址,就可以调用A或B。

但是怎么让CPU在执行A函数是进入Thumb状态,在执行B函数时进入ARM状态?

  • 调用函数A时,让PC寄存器的BIT0等于1,即:PC=函数A地址+(1<<0);
  • 调用函数B时,让PC寄存器的BIT0等于0:,即:PC=函数B地址

根据函数地址的bit0位来判断这是用Thumb指令写的还是用ARM指令写的。

这样做非常的麻烦,所以后来又引入了Thumb2指令集,它支持16位指令、32位指令混合编程。


有那么多指令集:ARM、Thumb、Thumb2,难道都要记住它们的指令吗?当然不会,ARM公司推出了UAL(Unified Assembly Language),统一汇编语言,你不需要去区分这些指令集。

在程序前面用CODE32/CODE16/THUMB表示指令集:ARM/Thumb/Thumb2

我们在使用中不需要记住多少汇编指令,没必要写很复杂的汇编程序,因为在设置栈后就用C语言来写函数了。

常用的汇编指令只有几类:内存访问、数据处理、跳转、其他指令。

以“数据处理”指令为例,UAL汇编格式为:

  • Operation表示各类汇编指令,比如ADD、MOV;
  • cond表示conditon,即该指令执行的条件,条件符合就执行,不符合就不执行,该选项可写可不写,条件有:

    如上图,这些条件都和程序状态寄存器xPSR中的值有关,使用条件的指令之前一定得有改变xPSR寄存器的指令。

{S}表示该指令执行后会去修改程序状态寄存器,也是可写可不写。

  • Rd为目的寄存器,用来存储运算的结果;
  • Rn、Operand2是两个源操作数

下面本喵用一款神器VisUAL来讲解一下常用汇编指令的用法,这是一款ARM汇编模拟器。

⚽内存访问指令

LDR:Load Register

如上图所示是该指令的用法,作用就是从内存中读取数据到寄存器中,其中{type}表示读取数据的类型,如B就是无符号的一个字节数据,该选项可写可不写。

STR:Store Register


如上图所示就是该指令的用法,作用就是将数据从寄存器中写入到内存中。


如上图所示汇编代码,在执行的过程中在右侧的红色框中可以看到寄存器中值的变化,在下侧的框中可以看到内存中的值。根据回调代码中的注释很容易看懂意思。

MOV是一个最基本的汇编指令,表示数据的移动,从源操作数移动到目的操作数,如上面中的MOV R0, #0x20000中,将0x20000移动到寄存器R0中。

!表示R0=R0+8,就是运算完以后要改变R0寄存器中的值。

LSL是一个数据左移指令,就相当于C语言中的<<操作符,如上面的STR R2, [R0, R1, LSL #4]表示将R1中的值左移4位然后加到R0上,最后将R2寄存器中的值存放到R0中值所代表的地址处。

LDM:Load Multiple Register


如上图所示是LDM的用法,作用是从多个地址处将数据读取到多个寄存器中。

addr_mode:
IA – Increment After, 每次传输后才增加Rn的值(默认,可省)
IB – Increment Before, 每次传输前就增加Rn的值(ARM指令才能用)
DA – Decrement After, 每次传输后才减小Rn的值(ARM指令才能用)
DB – Decrement Before, 每次传输前就减小Rn的值

! : 表示修改后的Rn值会写入Rn寄存器,
如果没有”!”, 指令执行完后Rn恢复/保持原值

^ : 会影响CPSR, 在讲异常时再细讲

这里的Rn表示地址,如LDMIA R0, {R1-R3}表示将R0,R0+4,R0+8地址处的数据读取到R1,R2,R3寄存器中。

STM:Store Multiple Register


如上图所示是STM的用法,作用是将多个寄存器中的值写到多个地址处。这里Rn也表示地址。选项和LDM的用法一样。


如上图所示是将寄存器中R1,R2,R3中的1,2,3放入到R0中的起始地址0x20000处时,使用的四种addr_mode方式。

上面是汇编代码,下面是执行完毕后内存中的值,这个过程中,高地址放编号高的寄存器中值

四种栈

根据栈指针指向,可分为满(Full)/空(Empty):

  • 满SP指向最后一个入栈的数据,需要先修改SP再入栈。

  • 空SP指向下一个空位置,先入栈再修改SP。

    根据压栈时SP的增长方向,可分为增/减:

  • 增(Ascending):SP变大。

  • 减(Descending):SP变小。

  • 组合后,就有4种栈:满增、满减,空增,空减。

常用的的栈为“满减”:

  • 入栈时用STMDB,也可以用STMFD,作用一样,表示入栈之前先减小SP。
  • 出栈时用LDMIA,也可以用LDMFD,作用一样,表示出栈之后再增加SP。


如上图代码所示,使用STMFD将数字1,2,3入栈,此时R13也就是SP寄存器的值是0x1FFF4,因为从0x2000开始减了12个字节,此时内存中的值也符合。

然后将R1,R2,R3寄存器中的值清0,然后再使用LDMFD将栈中的1,2,放入到寄存器中。

⚽数据处理指令

加法指令:

ADDR1, R2, R3 ; R1 = R2 + R3ADDR1, R2, #0x12 ; R1 = R2 + 0x12

减法指令:

 SUBR1, R2, R3 ; R1 = R2 - R3 SUBR1, R2, #0x12 ; R1 = R2 - 0x12

进行减法运算的时候,发生借位时会改变程序状态寄存器xPSR中的N位。

位操作:

ANDR1, R2, #(1<<4);位与,R1 = R2 & (1<<4)ANDR1, R2, R3 ; 位与,R1 = R2 & R3BICR1, R2, #(1<<4); 清除某位,R1 = R2 & ~(1<<4)BICR1, R2, R3 ; 清除某位,R1 = R2 & ~R3ORRR1, R2, R3;位或,R1 = R2 | R3

VisUAL里不支持(1<<4)这样的写法,写成0x10

比较:

CMP R0, R1 ; 比较R0-R1的结果CMP R0, #0x12; 比较R0-0x12的结果TSTR0, R1;测试 R0 & R1的结果TSTR0, #(1<<4) ;测试 R0 & (1<<4)的结果

比较的本质就是在做减法,用第一个操作数减去第二个操作数,比较的结果会改变程序状态寄存器xPSR中的N位和Z位。

⚽跳转指令

void A(){int a = 10;B(a);printf(“ok”);}

C程序中,函数A调用函数B的实质是:跳转去执行函数B的代码,函数B执行完后,还要回到函数A继续执行后面的代码。

对应的汇编指令就是跳转指令:

  • B:Branch,跳转
  • BL:Branch with Link,跳转前先把返回地址保持在LR寄存器中
  • BX:Branch and eXchange,根据跳转地址的BIT0切换为ARM或Thumb状态(0:ARM状态,1:Thumb状态)。
  • BLX:Branch with Link and eXchange,跳转前先把返回地址保持在LR寄存器中,根据跳转地址的BIT0切换为ARM或Thumb状态(0:ARM状态,1:Thumb状态)。

由于使用的是Thumb2指令集,所以只使用BBL两条跳转指令。


如上图,跳转时可以加条件{cond}{.W}不用写。

如上图,使用B跳转指令跳转到延时函数Delay中,然后让R0减1,再使用BNE来判断跳转到哪里,当R0不为0时,在BNESUBS之间执行。

SUBSSUB减法指令的基础上增加了S,表示执行完后会影响程序状态寄存器xPSR的值。


在运行过程中,xPSR中的Z位始终为0,表示R0的值不为0。BNE是在跳转指令B的基础上增加了条件NE,代表的条件就是xPSR中的Z为0。

此时符合BNE条件,所以跳转到loop继续执行,从而实现延时。但是这个延时函数执行完毕后无法获得返回地址,因为B跳转指令不会保存返回地址到LR寄存器中。


如上图所示,使用BL跳转指令,在跳转之前会将返回地址存入到LR寄存器中,如上图所示,LR中的值是0x04,由于当前地址是第一行,返回地址就是下一条指令的地址,也就是第2行,又因为BL指令是32位指令,所以增加4。

当延时结束以后,将LR中的返回地址直接赋值给PC寄存器,程序从第2行开始执行。

⚽伪指令

这样一条指令:MOV R0, #VAL意图是把VAL这个值存入R0寄存器,那么VAL可以是任意值吗?不可以

  • 直接给寄存器赋值的数必须是立即数

假设VAL可以是任意数,MOV R0, #VAL本身是16位或32位,哪来的空间保存任意数值的VAL?所以,VAL必须符合立即数的规定:


如上图是立即数必须符合的规则,但是由我们去判断一个数是否是立即数会比较麻烦,并且我就想把任意数值赋值给R0,这时就可以使用伪指令。

LDR伪指令:

LDR R0,=VAL

“伪指令”,就是假的、不存在的指令。编译器会把“伪指令”替换成真实的指令,比如:

  • LDR R0, =0x120x12是立即数,那么替换为:MOV R0, #0x12

  • LDR R0, =0x123456780x12345678不是立即数,那么替换为:LDR R0, [PC, #offset]使用LDR读内存指令读出值,offset是链接程序时确定的。

编译器在程序某个地方保存有这个非立即数的值,需要赋值的时候就来这个地府读取。

  • 注意LDR作为“伪指令”时,指令中有一个“=”,否则它就是真实的LDR(load regisgter)指令了。

ADR伪指令:

ADR R0, Loop

比如ADR R0, Loop,要将标号Loop的地址读取到R0中,它是伪指令,会被转换成真实的指令ADD R0,PC,#VALVAL在连接的时候确定。


如上图,之前的延时程序可以使用伪指令ADR直接将返回地址赋值给LR寄存器,将函数Delay的地址直接赋值给PC寄存器,去执行延时函数。

汇编和反汇编

我们的第1个LED程序涉及2个文件:start.s、main.c,它们的处理过程如下:


如上图所示是程序编译的步骤,最后面的红色框是反汇编,就是将生成的可执行二进制文件变成汇编代码。

  • 汇编:汇编文件转换为目标文件(里面是机器码)。
  • 反汇编:可执行文件(目标文件,里面是机器码),转换为汇编文件。

KEIL中反汇编:

fromelf--bin--output=led.binObjects\led.axffromelf--text-a -c--output=led.disObjects\led.axf

在KEIL的User选项中,如下图添加这两项:


然后重新编译,即可得到二进制文件led.bin(以后用到)、反汇编文件led.dis。


如上图,只截取led.dis中前面一小段,第一列是地址,第二列是机器码,第三列是汇编代码。


如上图所示是Thumb/Thumb2指令集中LDR指令的机器码生成规则,和前面反汇编文件中LDR对应的机器码做对比,可以发现,完全可以对的上。

C与汇编

汇编代码中调用C函数时使用BL mymain,那如果我想给mymain函数传参呢?在前面编译过程中可以看到,.c源文件也会被编译成汇编文件,然后所有汇编文件再进行汇编生成目标文件,然后再进行连接。

此时start.s中调用main.s中的mymain函数,这两个文件都是汇编文件,汇编调用汇编传参就容易实现了。在ARM中使用寄存器来传参:


如上图,r0-r3用于调用者和被调用者之间传参数。

r4-r11用来保存局部变量,函数可能使用它们,所以在函数的入口保存它们,在函数的出口恢复它们。

r12-r15是特殊用途的寄存器。

int delay(unsigned int d){while (d--);return 0;}int mymain(){delay(1000000);return 0;}

上面的C代码转换成汇编后调用delay时如下:

LDRR0, =1000000 /* 给delay函数传参数,保存在r0里 */BL delayCMP R0, #0/* 返回值保存在r0中 */

可以看到,在调用delay之前,直接将1000000赋给寄存器R0,然后使用BL调用delay,此时就通过R0进行了传参。

函数调用结束后,delay函数的返回值也保存在寄存器R0中。


⚽Flash上的内容


如上图是我们生成的反汇编文件,其中机器码是烧写到Flash上的,汇编码只是为了方便我们阅读。

每条指令会对应一个地址,如上图中的0x08000000,这个地址在Flash中是真实存在的,Flash中的地址也是按照上图中指令的地址这样分布的。

烧到Flash上

地址Flash内容
0x0800000000000000
0x0800000408000009
0x08000008f8dfd004
0x0800000cf000f80c
0x0800001020010000
0x08000014bf00b501
0x080000181e419800
…………

如上表所示,烧到Flash上的内容只有机器码,它自动放在与每条指令相对应的地址上。

启动流程:

上电后:

  • 设置栈:CPU会从0x08000000读取值,用来设置SP(我们的程序里在调用mymain之前设置了SP)
  • 跳转:CPU从0x08000004得到地址值,根据它的BIT0切换为ARM状态或Thumb状态,然后跳转
    • 对于cortex M3/M4,它只支持Thumb状态,所以0x08000004上的值bit0必定是1
    • 0x08000004上的值 = Reset_Handler + 1
  • 从Reset_Handler继续执行,使用BL调用我们的mymain函数开始执行C代码。

纯汇编点灯


如上图所示汇编代码,上电后,程序会执行Reset_Handler处,开始执行汇编代码,步骤和C语言的一样。

  • 将RCC_APB2ENR寄存器的绝对地址赋值给R0,然后将bit3置为1,使能GPIOB。
  • 将GPIOx_CRL寄存器的绝对地址赋值给R0,然后将bit0置位1,设置PB0为输出模式。
  • 将GPIOx_ODR寄存器的绝对地址赋值给R2,然后控制它的bit0位来控制引脚输出0和1。
    • 将bit0设置成1,LED灯点亮,然后延时
    • 将bit0设置成0,熄灭LED灯,然后延时
    • 再使用B指令跳转回Loop处,循环点亮

在调用延时函数delay时使用的是BL指令,在延时函数中,使用BNE判断R0中的值是否为0,延时结束后将LR中的返回地址赋值给PC寄存器。

调用延时函数delay时,通过寄存器R0传参。

将程序编译并烧录到开发板中,可以看到LED灯在闪烁,本喵这里也不贴图了。

总结

这篇文章中,要对ARM架构有一个框架性的认识,知道CPU是怎么访问内存的,还有要记住这几条常用的汇编指令,其他复杂的指令遇到时自行百度查阅即可。

要明白调用函数是如何传参的,以及板子上电后,程序的执行流程,包括Flash中存放的是什么。