Linux（九）fork复制进程与写时拷贝技术

一、printf隐藏的缓冲区

首先，大家一起思考一个问题：为什么会有缓冲区的存在呢？

因为屏幕是一个硬件设备,是由操作系统来管理的,因此printf打印的时候需要调用操作系统的接口才能完成，这个时候我们需要从用户态切换到内核态,这个开销是比较大的。所以先刷新到缓冲区，当缓冲区满时，打印到屏幕上，这样在不需要时回到缓冲区即可，减少开销；程序结束就再次刷新缓冲区。

那我们为什么感觉不到缓冲区的存在呢？

大家可以在虚拟机中编写上面的main.c程序，运行后就会发现结果会先睡眠3秒，然后再打印hello，这就是因为printf先进入了缓冲区。

那么，有伙伴可能就会想缓冲区刷新到界面（屏幕）上的条件是什么呢？

(1)缓冲区放满
(2)缓冲区未满,强制刷新缓冲区到屏幕;
(3)程序结束时,自动刷新缓冲区:exit方法;

那我们就在介绍一下强制刷新缓冲区的两种方法：

（1）遇到\n自动刷新

在这里添加了‘\n’,运行结果就是先hello，后睡眠

（2）手动刷新

fflush(stdout);

std:标准库，out输出

运行结果也是先hello，后睡眠

小编在额外说一下exit(0)

exit是先刷新缓冲区,然后再调用_exit(真正的退出)。

_exit直接退出，不会刷新缓冲区。

大家可以试着运行一下下面这个代码，就会发现，不输出hello

#include<stdio.h>
#include <stdlib.h>
#include <unistd.h>
int main(){printf("hello");sleep (3);_exit (0);}

大家可以看一下，我连续运行了三次./main都是没有打印出东西的，只是睡眠了3秒，然后结束运行。

二、fork复制进程

1、shell

在计算机科学中,Shell俗称壳(用来区别于核),是指“为使用者提供操作界面”的软件(command interpreter,命令解析器)。它类似于DOS下的COMMAND.COM和后来的cmd.exe。它接收用户命令,然后调用相应的应用程序。

我们就是通过命令解释器(称为shell)(bash是命令解释器中的一种)和内核和系统进行交互的
(Windows通过图形界面进行交互的);例如我们把Is交给bash,bash帮我们运行Is,然后把结果给用
户；

大家可以ps -f一下就可以发现：一个终端一个bash,因为PID不同

2、fork如何复制进程

fork是把已有的进程复制一份,当然把PCB也复制了一份,然后申请一个PID,子进程的PID=父进程的PID+1;

父进程的返回值是子进程的PID，子进程的PID是父进程的PID+1；子进程的返回值是0；

如果父子进程想要做不同的事情，那么我们通过返回值来判断。

我们现在想要使用fork()，但是我们既不知道参数类型也不知道返回值，这个时候就要用到

man fork 这个命令调用fork的帮助手册

我们通过执行下面的程序可以来感受一下父子进程：

#include <stdio.h>
#include <unistd.h>
#include <assert.h>
#include <stdlib.h>int main(){char *s=NULL;int n=0;//控制父子进程执行的次数;pid_t id=fork();assert(id !=- 1);if(id == 0){s="child";n=3;}//子进程else{s="parent";n=7;}//父进程//父子进程int i=0;for(;i<n;i++){printf("s=%s\n",s);sleep(1);//是因为两个进程同时打印太快了，一下就出来感受不到，sleep后就感觉到同时}exit(0);
}

通过上面的代码和运行结果，我们知道了父子进程是两个独立的进程，各自执行各自的代码；如果父子进程要做不一样的事情,就通过if else返回值来操作。

3、fork的时机

有的朋友可能会想，我一直调用fork，不就一直在复制进程，没有终止了吗？这就涉及到了fork的时机。

fork产生的这个子进程不是从头开始执行的,而是从fork之后开始执行的,就是说fork下面的代码
子进程才开始执行,具体的是说从返回值这里子进程开始执行,子进程不会再fork了,所以不会出现
子进程再去fork产生一个子进程的问题.也就是说:从返回值这里开始,父进程返回子进程的PID,子进程返回0;

4、getppid与getpid

getppid:得到一个进程的父进程的PID;
getpid:得到当前进程的PID;

同样的，我们使用命令：man getpid; man getppid 来查看如何使用getpid,getppid

然后将我们刚刚的代码做一下修改，使我们能看到pid和ppid

三、写时拷贝技术

当我们不采用写时拷贝技术，使用fork：

如上图，父进程的所有，子进程都要复制过来；

就造成了两个问题：复制开销较大，占用内存空间

所以我们对fork复制进程的过程做了一个优化——写时拷贝技术（修改，写入的时候才拷贝）

综上,就是fork的时候，子进程直接把父进程的页表复制过来，子进程发生写入(修改)的时候才分配内存复制，然后进行相应的页表修改。写时拷贝是一种可以推迟甚至免除拷贝数据的技术。

四、进程的逻辑地址与物理地址

首先，我们一起思考一个问题：我们在进程中看到的地址是进程的物理地址还是逻辑地址？

通过下面的代码打印看看

printf("s=%s,pid=%d,ppid=%d,n的地址为:%p\n",s,getpid(),getppid(),&n);//打印n的地址

大家会发现，打印出的地址是相同的

父子进程中n的值都不一样,那么我们为什么看到n的地址是相同的呢?

我们在进程中看到的地址就是进程的逻辑地址(进程的4G空间,从0开始,一直往上增长);

32位系统上,都有一个0-4G的地址空间:
在Linux系统上,最上面这1G由内核使用,下面3G是用户在使用;
为什么是4G呢?在32位系统上,能够寻址的范围就是2^32=4294967296字
节/1000=4294976K/1000=4294M/1000=4.29G约等于4G；

而我们把所有的地址都编号，1K = 2^10,4K = 2^12；物理页面能有2^20个页面

大家通过对上图进行梳理，就可以发现父子进程逻辑地址一样,但是物理地址是不一样的;

        以前我们的程序都是只有一个进程,我们逻辑地址相同,那么我们的逻辑地址映射过去的物理地址肯定也是相同的一块空间,只有一个进程,就不用刻意去理解逻辑地址和物理地址的差异;对于同一进程,逻辑地址相同,物理地址肯定相同。
        现在,我们的程序都是多进程的,逻辑地址相同,对应的物理地址就不一定相同了;也就是说A进程和B进程的逻辑地址相同,就不能说明物理地址一定相同,我们还需要看各自的页表,看看页表是否相同。
        不同进程的逻辑地址是没有比较的意义的;

那为什么在程序中不直接使用物理地址呢？

因为我们无法预知哪些物理地址是空闲的,同时空闲的也是动态变化的,程序在不断的申请释放空间中。

【小编有话说】

从这篇文章开始，我们就进入Linux更深一点的学习了，后面的内容会越来越难，小伙伴们一定要反复思考学习。

还是老话，看的开心的话，不要忘记点赞关注收藏哦，有了大家的鼓励小编会更有动力呢！！！