协程切换原理与实践 -- 从ucontext api到x86_64汇编

news/2025/1/15 23:22:13/

目录

1.协程切换原理理解

2.ucontext实现协程切换

2.1 实现流程

2.2 根据ucontext流程看协程实现

2.3 回答开头提出的问题

3.x86_64汇编实现协程切换

3.1libco x86_64汇编代码分析

3.2.保存程序返回代码地址流程

3.3.恢复程序地址以及上下文

 4.实现简单协程框架

1.协程切换原理理解

协程可以实现在一个线程中调度并切换不同任务,参考了网上一些经典的协程实现,记录一下任务切换的原理。下文将实现一个对称协程切换的demo,相同流程先使用ucontext api实现,了解流程后再使用x86_64汇编实现,x86_64汇编直接拷贝了开源项目libco的代码,封装成类似ucontext api的方法调用。文章最后实现一个可以选择使用ucontext和汇编切换协程的简单demo。

对称协程的切换流程如下

实现上述流程,直观上讲首先需要知道如何把程序计数器PC(IP)切到指定代码的位置,另外每个线程都有固定的堆栈来记录局部变量和程序返回地址,那么如何给协程执行的任务分配堆栈呢?总结一下,当前面临三个问题

1.如何修改程序计数器的位置,使程序能在不同位置跳转执行

2.如何给协程分配属于当前协程的堆栈

3.除了需要恢复对栈,切换协程后还需要恢复哪些东西(提前透露答案:还需要恢复其他通用寄存器   可以思考一下这些寄存器的内容如何存放)

解决了这三个问题,基本就完成了协程切换。

下面先使用ucontext实现一下,再借用libco提供的x86_64的汇编代码,封装一个类似ucontext api的实现,由浅入深理解协程切换。

2.ucontext实现协程切换

ucontext是posix提供的一套api,可以用于保存当前堆栈,头文件是<ucontext.h>。其中api很简单,只有四个接口,分别如下。

获得当前 CPU 上下文

int  getcontext(ucontext_t *); 

重置当前 CPU 上下文

int  setcontext(const ucontext_t *);

修改上下文信息,比如设置栈指针,需要执行的入口函数也是在这里作为函数指针传入。

void makecontext(ucontext_t *, (void *)(), int, ...); 

执行makecontext设置的内容,也就实现协程切换

int  swapcontext(ucontext_t *, const ucontext_t *);

下面大致了解一下ucontext_t结构体,可以发现这里主要是是存放了栈空间和寄存器,也就是文章第一节中说的三个问题的后两个,这里看着都有关联。

typedef struct ucontext{unsigned long int uc_flags;struct ucontext *uc_link;       //需要切换的下一个context    stack_t uc_stack;         //当前栈信息  如果使用自己分配的内存作为当前栈内存 需要修改这里mcontext_t uc_mcontext;      // 保存寄存器信息__sigset_t uc_sigmask;struct _libc_fpstate __fpregs_mem;      } ucontext_t;typedef struct{gregset_t gregs;/* Note that fpregs is a pointer.  */fpregset_t fpregs;__extension__ unsigned long long __reserved1 [8];
} mcontext_t;

2.1 实现流程

下面贴一下man中ucontext最基本的使用,网上引用这个代码的博客很多,咱这里也贴一下并简单分析,直观上理解ucontext的用法。这个demo虽然并非完整的协程框架,但是基本上讲明白了协程切换的流程,我理解协程框架是在这个基础上完善了堆栈管理的内容。补充一下,ucontext在Mac M1机器上比较新的操作系统版本下,使用Rosetta模式运行似乎也有问题,这里最好搞个X86_64的Linux机器运行。

#include <ucontext.h>
#include <stdio.h>
#include <stdlib.h>static ucontext_t uctx_main, uctx_func1, uctx_func2;#define handle_error(msg) \do { perror(msg); exit(EXIT_FAILURE); } while (0)static void
func1(void)
{printf("func1: started\n");printf("func1: swapcontext(&uctx_func1, &uctx_func2)\n");if (swapcontext(&uctx_func1, &uctx_func2) == -1)handle_error("swapcontext");printf("func1: returning\n");
}static void
func2(void)
{printf("func2: started\n");printf("func2: swapcontext(&uctx_func2, &uctx_func1)\n");if (swapcontext(&uctx_func2, &uctx_func1) == -1)handle_error("swapcontext");printf("func2: returning\n");
}int
main(int argc, char *argv[])
{char func1_stack[16384];char func2_stack[16384];if (getcontext(&uctx_func1) == -1)handle_error("getcontext");uctx_func1.uc_stack.ss_sp = func1_stack;uctx_func1.uc_stack.ss_size = sizeof(func1_stack);uctx_func1.uc_link = &uctx_main;makecontext(&uctx_func1, func1, 0);if (getcontext(&uctx_func2) == -1)handle_error("getcontext");uctx_func2.uc_stack.ss_sp = func2_stack;uctx_func2.uc_stack.ss_size = sizeof(func2_stack);/*  Successor context is f1(), unless argc > 1 */uctx_func2.uc_link = (argc > 1) ? NULL : &uctx_func1;makecontext(&uctx_func2, func2, 0);printf("main: swapcontext(&uctx_main, &uctx_func2)\n");if (swapcontext(&uctx_main, &uctx_func2) == -1)handle_error("swapcontext");printf("main: exiting\n");exit(EXIT_SUCCESS);
}

下面捡重要的流程简单分析一下。这里uctx_func1可以理解为一个协程的实例,先给这个实例安装我们自己分配的内存作为栈,并且安装一个回调函数func1作为协程入口。另外一个协程实例uctx_func1也是这样操作

    char func1_stack[16384];...if (getcontext(&uctx_func1) == -1)handle_error("getcontext");uctx_func1.uc_stack.ss_sp = func1_stack;uctx_func1.uc_stack.ss_size = sizeof(func1_stack);//uctx_func1.uc_link = &uctx_func2;uctx_func1.uc_link = &uctx_main;makecontext(&uctx_func1, func1, 0);

下面代码,在main函数中,调用swapcontext完成协程切换,这里推测主要做了以下操作:

1.当前main函数执行的上下文环境,包括堆栈,堆栈栈顶指针,其他寄存器当前的状态,都被保存到了uctx_main。

2.当前程序寄存器的栈顶指针指向给uctx_func2分配的uc_stack.ss_sp,将func2函数指针作为返回地址入栈

3.swapcontext执行完毕后栈顶作为返回地址,返回func2,这样程序计数器会执行func2函数,由于sp栈顶指针寄存器在上一步已经指向了我们分配的内存,此时func2中函数调用和临时变量分配都会放到我们自己分配的内存

4.另外其他寄存器也会重新分配,如果uctx_func2不是第一次执行,那么swapcontext就会把其他通用寄存器恢复回uctx_func2之前离开时的样子。

    printf("main: swapcontext(&uctx_main, &uctx_func2)\n");if (swapcontext(&uctx_main, &uctx_func2) == -1)handle_error("swapcontext");

上面对swapcontext的解释是看了libco中的汇编代码猜的,属于提前剧透内容,下文还有具体分析,但是内核中不一定完全是这样的实现。

到这一步,func2就会被执行,也就是说ucontext协程切换已经完成了一次。

2.2 根据ucontext流程看协程实现

下面画了一个简图,描述了2.1小节中的流程以及剧透部分。

 左边蓝色部分是主流程的堆栈和寄存器。

右边绿色部分是切到协程后,协程的状态。

洋红色箭头代表由协程切回主流程需要做的事情。

现在就可以看着这张图,加上提前剧透的知识,回顾一下开头提出的问题了。

2.3 回答开头提出的问题

这里比较重要,单独列了一个小节。

1.程序计数器的位置,是调用swapcontext进入时栈顶的值,这个值代表了函数的返回地址,如果需要切到其他线程,那么swapcontext函数退出前,将当前栈顶的值(长度为当前系统的sizeof(void*),64位系统这个值就是一个8byte的地址)修改为要跳转的程序地址。如果第一次设置那么这个地址就是makecontext时设置的回调函数的地址。

2.如何给自己的协程分配堆栈内存呢,先自己手动分配一块内存,然后将栈顶指针SP指向这块内存的末尾位置。简单点说就是通过汇编语言直接修改SP指针,指到我们分配的内存。

对于64位系统,栈内存和SP寄存器的关系如下

 3.剩下其他寄存器,在swapcontext时,对于要切走的协程,需要存储的就存在协程context自己的内存中,然后把要切入协程的context中保存的寄存器从内存拿出,恢复到寄存器中。

3.x86_64汇编实现协程切换

截止到目前,协程切换的原理已经讲完,下面要做的是使用x86_64汇编,根据我们自己的理解,封装一个类似ucontext api的函数接口。这里汇编部分直接粘贴了libco的代码。

3.1libco x86_64汇编代码分析

这块网上已经有不少文章做过类似的分析,我们这里先贴出流程分析,主要代码都做了比较详细的注释,可以参考上文内容一起理解。最后使用Xcode进行了一次debug并做截图,验证我们的分析过程。完整代码工程在文章最后的下载链接中。

.globl simple_ctx_swap
#if !defined( __APPLE__ )
.type  simple_ctx_swap, @function
#endif
simple_ctx_swap:... ...#elif defined(__x86_64__)//leaq (%rsp),%rax        //当前栈顶指针指向内存中存储的是 调用simple_ctx_swap的地址//栈顶指针(%rsp)地址 放到rax寄存器  rax存储了栈顶指针//栈顶指针指向当前simple_ctx_swap 存储在reg[9] 下次这个协程resume会走调用simple_ctx_swap的下一句//这样就可以完成协程的终端返回movq %rsp,%rax            // 等效 leaq (%rsp),%rax//存当前寄存器 到给定的ctx  rdi是参数1 当前co的buffer//rdi 指向当前ctx的寄存器buffer   要把当前寄存器的值存到这个buffer中movq %rax, 104(%rdi) //[14]  存栈顶   为什么不直接存rsp??????????//存储通用寄存器movq %rbx, 96(%rdi)  //[13]movq %rcx, 88(%rdi)  //[12]movq %rdx, 80(%rdi)  //[11]movq 0(%rax), %rax   //[10] rax的指向地址中的值 存入rax   rax存储了栈顶值 也就是当前coctx_swap的返回值// movq 0(%rsp), %rax 为什么不直接这样movq %rax, 72(%rdi)  //[9]  返回地址存入reg[9]movq %rsi, 64(%rdi)  //[8]movq %rdi, 56(%rdi)  //[7]movq %rbp, 48(%rdi)  //[6]movq %r8, 40(%rdi)   //[5]movq %r9, 32(%rdi)   //[4]movq %r12, 24(%rdi)  //[3]movq %r13, 16(%rdi)  //[2]movq %r14, 8(%rdi)   //[1]movq %r15, (%rdi)    //[0]xorq %rax, %rax     //通过抑或将rax置0//取  rsi表示新的要执行的co的buffer 首次就是coctx_make后的寄存器数组//rsi指向pending的ctx 要把这里的内容恢复到寄存器中//恢复通用寄存器movq 48(%rsi), %rbp     //[6]      x86_64 rbp用于通用寄存器 非栈底//恢复栈movq 104(%rsi), %rsp    //[14]     更新栈顶指针  ctx->regs[kRSP] = sp; coctx_make强制将栈顶改成我们为每个协程分配的空间//恢复通用寄存器movq (%rsi), %r15       //[0]movq 8(%rsi), %r14      //[1]movq 16(%rsi), %r13     //[2]movq 24(%rsi), %r12     //[3]movq 32(%rsi), %r9      //[4]movq 40(%rsi), %r8      //[5]// r10 r11 不用管//恢复回调参数1 给rdimovq 56(%rsi), %rdi     //[7]  ctx->regs[kRDI] = (char*)s;//恢复通用寄存器movq 80(%rsi), %rdx     //[10]  rdx 参数3movq 88(%rsi), %rcx     //[11]  rcx 参数4movq 96(%rsi), %rbx     //[13]  rbx 通用寄存器//栈空间 |         <-      | rsp |-------------| 当前栈顶为函数返回地址//栈空间 |         <-            | rsp |-------| 将当前的栈顶推掉8字节leaq 8(%rsp), %rsp//将要执行的函数地址入栈  这样从coctx_swap返回后 出栈地址就是reg[9] ip寄存器跳到回调函数执行//栈空间 |         <-      | rsp |-------------|pushq 72(%rsi)          //reg[9]存了回调地址  ctx->regs[kRETAddr] = (char*)pfn;//恢复回调参数2 给rsimovq 64(%rsi), %rsi     //[8]  ctx->regs[kRSI] = (char*)s1;ret
#endif

3.2.保存程序返回代码地址流程

leaq (%rsp), %rax 执行前

 leaq (%rsp), %rax 这句话在这里基本等效于 movq %rsp, %rax ,将当前栈顶寄存器rsp中的值赋值给rax寄存器。 这里可以看到 rsp中的值 作为指针,指向地址为 0x01000033ac,记住这个值。

leaq (%rsp), %rax执行后

存储栈顶指针及栈顶值

 这里看到, movq %rax, 104(%rdi) 将rax存储到rdi指向地址偏移104 byte,相当于栈顶置针rsp的值被存储到 缓存buffer的reg[14]。

movq 0(%rax), %rax 这句话把rax地址 0x120027fa8 中的值赋值给rax,也就是执行完这句话后,rax中的值变为 0x01000033ac。这里读一下寄存器,发现这个值指向一个地址,也就是我们说的程序返回地址。这个demo中所有的协程跳转都依赖于这个操作。读取一下rax,程序的代码地址就显示出来了,这里是 simple_co.c的130行。

看一下 ,这个地址就是我们执行完simple_ctx_swap的位置。


3.3.恢复程序地址以及上下文

下面放行这个程序,yield当前协程,直到下一次swapcontext调度到这个协程。

恢复栈

 上文存储的栈指针在buffer偏移104的位置,这里将偏移104位置的值移动到栈顶指针,此时协程栈顶位置已经恢复。

 这一步恢复返回地址

 之前压入的返回地址存储的位置在 0x120027fa8,内容是0x01000033ac,也就是 simple_co.c的130行。这里把当前栈后退一格,把0x01000033ac push到栈顶,这样这个函数退出后,程序执行的位置就到了simple_co.c的130行。

下图是libco寄存器buffer的内存分布,有颜色的部分是本节上文提到需要操作的部分,其他寄存器和buffer内存直接存取即可恢复环境。

 4.实现简单协程框架

 上图是demo中实现协程框架的原理,寄存器和栈切换的过程上文已经有较多的描述。下面说说demo中栈内存的分配与拷贝情况。

4.1栈内存管理

前提条件,主流程使用的是线程提供的栈空间,不是我们分配的,我们不直接操作这个栈。

1.对每个协程而言,运行使用的栈内存是一个公共的主栈,每次协程切换完环境后都要在主栈运行。

2.每个协程有自己的栈缓存,用于协程切出时保存当前主栈的内容,协程切入是恢复当前主栈的内容。这就需要切换协程时拷贝栈内存。

3.如何确认当前栈的长度?定一个临时变量dummy,&dummy就是下一行代码前的栈顶,栈底我们自己分配的内存自己可以根据内存长度获取,&dummy - 栈底的内容就是当前栈空间。

具体可以参考这段代码,在当前协程yield前,调用,将当前栈存储在协程的私有空间中

/*** @brief 保存当前执行状态 用于当前协程yield*        使用ucontext 在这里分配每个协程的堆栈* @param co * @param top */
static void _save_stack(simple_coroutine *co, char* top){//top = co->sched->stack + co->sched->stack_size;//dummy 的地址为当前函数_save_stack 重要// 程序执行到 "char dummy = 0;"时 sched中存储当前执行的栈的情况// |sched->stack|....|                        |             top                | //   低地址                |&dummy| <- 栈增长 - |sched->stack + sched->stack_size| 高地址//                        |              co->stack_size                        |// |<-----                       SIMPLE_MAX_STACKSIZE                     ---->|////LOGI("_save_stack top=%p \n", top);char dummy = 0;//检查栈顶确认没有越界 top主栈最高地址 当前主栈栈顶&dummyassert(top - &dummy <= SIMPLE_MAX_STACKSIZE);//确保当前co的stack有足够的空间存储 当前执行栈的内容 //栈在高地址 向低地址增长 &dummy就是当前栈的首地址if (co->stack_size < top - &dummy) {//初始值为0 首次运行的co在这里分配栈空间co->stack = realloc(co->stack, top - &dummy);assert(co->stack != NULL);}// 执行完 memcpy 后每个协程co的栈保存了当前运行栈sched->stack// 等待下次执行时恢复// |co->stack|// |&dummy| <- 栈增长 - |sched->stack + sched->stack_size|co->stack_size = top - &dummy;memcpy(co->stack, &dummy, co->stack_size);//LOGI("_save_stack top=%p &dummy=%p co->stack_size=%d\n", top, &dummy, co->stack_size);
}

4.加载栈内存

在resume时加载栈内存。将协程co存储的栈,拷贝到主运行栈中。此时co中SP指针指向的应该就是真个栈的栈顶。栈内存和栈寄存器是分开恢复的。

// sched->stack_size 初始化的时候已经写死这个运行栈的长度// |sched->stack|   <-----   sched->stack_size   ---->                   |            // |sched->stack|  <- 增长方向             |  co->stack_size(准备执行栈内存) |// 当前执行栈 sched->stack 的内容变为co中栈的内容 这样下一步又开始执行co的上下文// |sched->stack|                         |  co->stack_size(准备执行栈内存) |//将运行的协程memcpy(co->sched->stack + co->sched->stack_size - co->stack_size, co->stack, co->stack_size);co->status = SIMPLE_CO_STATUS_RUNNING;//char top;//LOGI("before simple_ctx_swap top=%p \n", &top);//当前参数保存到sched->ctx 执行co->ctx
#ifndef SIMPLE_SWAPswapcontext(&sched->ctx, &co->ctx);
#elsesimple_ctx_swap(co->sched->ctx.regs, co->ctx.regs);
#endif

4.2 封装切换api

makecurrent实现

这里只保存函数执行地址,参数和栈地址。在swap的时候将这些值给对应寄存器

void simple_ctx_makecontext(simple_ctx *ctx, simple_ctx_func func, void* arg){//低 |             <-        |sp|      | 高   栈顶指针指向协程堆栈的最高地址//                           |  8字节  |char *sp = ctx->ss_sp + ctx->ss_size - sizeof(void*);//对齐sp = (char*)((unsigned long)sp & -16LL);ctx->regs[kRSP] = sp;ctx->regs[kRETAddr] = func;ctx->regs[kRDI] = arg;
}

swapcurrenet

上文汇编代码 simple_ctx_swap

至此,简单协程切换框架就完成了。

demo下载地址

https://download.csdn.net/download/lidec/87780929


http://www.ppmy.cn/news/97390.html

相关文章

python+django协同过滤算法的美食O2O外卖点餐系统vue

当然使用的数据库是mysql。尽管没有面向对象的数据库的作用强大&#xff0c;但是在Python开发上还是比较的灵活和方便的。系统功能主要介绍以下几点&#xff1a; 本外卖点餐系统主要包括二大功能模块&#xff0c;即用户功能模块和管理员功能模块。 &#xff08;1&#xff09;管…

1. Tomcat整体架构及其设计精髓分析

tomcat 1.Tomcat的整体架构1.1 Tomcat介绍1.1.1 Servlet基础回顾 1.2 目录结构1.3 web应用部署的方式1.4 结合Server.xml理解Tomcat架构1.5 架构图 2. Tomcat核心组件详解2.1 Server 组件2.2 Service组件2.3 连接器Connector组件2.3.1 ProtocolHandler 组件2.3.1.1 EndPoint2.3…

Java中常见锁的分类及概念分析

基于线程对同一把锁的获取情况分类 可重入锁 同一个线程可以多次获取锁 每次获取锁&#xff0c;锁的计数器加1&#xff0c;每次释放锁锁的计数器减1 锁的计数器归零&#xff0c;锁完全释放 Java中提供的synchronized&#xff0c;ReentrantLock&#xff0c;ReentrantReadWriteL…

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

目录 前言 一、文档分析与识别最新研究 二、视觉-语言预训练模型及迁移学习 三、篡改文本图像的生成与检测技术 四、智能文档处理技术在工业界的应用与挑战 总结 前言 图文智能处理前沿技术一直是我所关注的技术&#xff0c;尤其在现在集成多态大模型的基础之上&#xff0…

深入了解平均精度(mAP):通过精确率-召回率曲线评估目标检测性能

平均精度&#xff08;Average Precision&#xff0c;mAP&#xff09;是一种常用的用于评估目标检测模型性能的指标。在目标检测任务中&#xff0c;模型需要识别图像中的不同目标&#xff0c;并返回它们的边界框&#xff08;bounding box&#xff09;和类别。mAP用于综合考虑模型…

【原创】浅谈EtherCAT主站EOE(上)-EOE网络

版权声明&#xff1a;本文为本文为博主原创文章&#xff0c;未经同意&#xff0c;禁止转载。如有问题&#xff0c;欢迎指正。博客地址&#xff1a;https://www.cnblogs.com/wsg1100/ 文章目录 一、EoE二、EoE服务规范EtherCAT主站如何提供EoE服务&#xff1f; 三、EoE网络EOE网…

【软件质量与软件测试 软件质量标准】

文章目录 第五章 软件质量标准5.1 软件质量标准概述5.1.1 国际标准5.1.2 国家标准5.1.3 行业标准5.1.4 企业规范5.1.5 项目规范 5.2 ISO9001和9000-3在软件中的应用5.3 能力成熟模型CMM&CMMI5.3.1 CMM质量思想5.3.2 CMM关键域5.3.3 PSP和TSP5.3.4 CMMI——软件能力成熟度集…

ArrayList(数组) 和 LinkedList(双向链表) 的区别是什么?使用ArrayList而不使用LinkedList的原因

[toc](ArrayList(数组) 和 LinkedList(双向链表) 的区别是什么&#xff1f;使用ArrayList而不使用LinkedList的原因) ArrayList(数组) 和 LinkedList(双向链表) 的区别是什么&#xff1f; ArrayList&#xff1a;内部是通过数组实现的&#xff0c;支持随机访问&#xff0c;实现…