linux文件与重定向

一、共识原理

二、回顾C语言文件函数

1.fopen

2.fwrite

3.fclose

三、文件系统调用

1.open

2.write

3.访问文件的本质

4.stdin&&stdout&&stderror

5.文件的引用计数

四、重定向

1.文件描述符的分配规则

2. 输出重定向

3.重定向系统调用

4.追加重定向

5.输入重定向

6.1号VS2号

一、共识原理

1.文件=内容 + 属性

我们关注文件，不仅要关注它的内容，也要关心它的属性，一个文件即使没有内容，它的大小也不是空的，因为该文件的属性也是会占用空间的。

2.文件分为打开的文件和没打开的文件

3.打开的文件

谁在打开文件？我们在代码中写一个fopen，fwrite，最终都会变成进程，因此是进程在打开文件。

研究打开的文件---本质是研究进程和文件的关系！文件被打开，必须被加载到内存！内容和属性都被加载到内存。

进程：打开的文件 = 1 : n。一个进程是可以打开多个文件的，因此进程和打开的文件关系是1:n的

操作系统内部，一定存在大量的被打开的文件！OS要不要管理这些打开的文件呢？-怎么管理？？？-先描述在组织，在内核中，一个被打开的文件都必须有自己的文件打开对象，包含文件的很多属性。

4.没打开的文件：在哪里放着呢？在磁盘上。我们最关注什么问题？没有被打开的文件非常多，我怎么找到我要打开的文件？因此文件必须被分门别类的归置好---方便我们快速的进行增删查改---快速找到文件。

二、回顾C语言文件函数

1.fopen

fopen的第一个参数是文件名，如果不带路径，默认就在当前路径下打开，如果带了绝对路径，就在绝对路径下打开，第二个参数是以什么方式打开，是读呢？还是写呢？还是追加写？下面我们打开了"log.txt"这个文件，在当前路径下是没有log.txt这个文件的，fopen如果打开不存在的文件会新建在打开，是以读方式打开。果然在我们的当前路径下创建了一个log.txt文件。

下面的问题是，当前路径，什么是当前路径呢？当前路径就是进程的当前路径，如果我们把进程的当前路径修改了，是不是就可以把文件新建到其它目录下呢？那怎么修改进程的当前路径呢？chdir。

可以看到，当把进程的当前工作目录修改了之后，创建的文件log.txt的路径也随之发生了变化。

2.fwrite

fwrite的第一个参数是写入内容的起始地址，第二个参数是写多少个，第三个是当做一个几部分写入，第四个是要写入那个文件里。

这里我们直接把message当做一个整体写入到fp里，也就是log.txt文件里，这里有一个问题就是strlen(message)需要+1吗？strlen求字符串长度，求到'\0'就结束了，也就是说如果+1就是把'\0'也写入到文件里，这里需要吗？答案是不需要，因为'\0'是C语言的要求，C语言不知道字符串从哪里结束才要'\0'，但是和我文件有啥关系？

运行一下，在查看log.txt里的内容，发现果然hello world被写入到文件中了。

下面我们给log.txt里面多加几个2字符，然后在运行一下。

我们发现原来的内容全部没有了，这说明"w"方式，在写入之前，都会对文件进行清空处理！然后再从头开始写。

这个>重定向，是不是就是把log.txt打开，然后以w的方式把"hello world" 写进去呀？因此，我们>前面不加任何东西就是以w方式打开log.txt文件但是不写任何内容，此时就把log.txt清空了。

那如果我们就想要追加写呢？可以以"a"的方式打开，a在文件结尾，追加写。

3.fclose

如果我们把一个文件使用完毕了，就需要使用fclose关闭一下这个文件。它的使用非常简单，把打开的文件指针传进去即可。

下面就有一个问题了，文件是在磁盘上的，磁盘是外部设备，我们上述的fwrite，fopen，包括fclose，其实实在访问硬件，那我们用户能直接访问硬件吗？不能，操作系统不相信任何人，我们要访问硬件，必须通过操作系统提供的系统调用，因此，我们上述写的库函数，一定要封装系统调用！什么printf/fscanf/fwrite/fread......这些库函数，都是封装了系统调用的。下面我们就学习一下这些文件相关的系统调用。

三、文件系统调用

1.open

给我们提供了两个打开文件的系统调用，我们只要学会下面那个参数多的即可，参数少的是参数多的一子集。

第一个参数是要打开的文件路径，如果没有带路径，默认就是进程的当前路径。第二个参数是以什么方式打开，第三个参数是文件的权限，可以设置创建文件的权限。

返回值如果失败返回<0的数，成功，返回>0的数。

我们先来以只读方式打开，只读方式打开传递O_WRONLY这个宏即可。

我们发现我们直接打开文件失败了，这是为啥呢？这是因为如果打开的文件不存在，并不会给新建，因此此时要在传递一个宏O_CREAT，表示如果文件不存在就创建。此时我们可以看到就创建了log.txt文件。

但是这里细心的同学会发现有问题，就是，我明明文件权限设置的是666呀，文件权限应该是rw-rw-rw，但这里却是rw-rw-r--，不是666而是664，这是因为权限掩码。如果你说我就要创建权限是666的文件呢？可以，有设置掩码的函数umask，直接把掩码设成0即可。

题外话：open的第二给参数是一个整数呀，可是我们给他传递了O_WRONLY和O_CREAT两个选项，是咋做到的呢？其实就是简单的位运算。

#include "stdio.h"
#include "string.h"
#include <sys/types.h>
#include <sys/stat.h>
#include <unistd.h>
#include <fcntl.h>#define ONE (1 << 0) //1
#define TWO (1 << 1) //2
#define THREE (1 << 2)//4
#define FOUR (1 << 3) // 8void show(int flags)
{if(flags & ONE) printf("hello funcion1\n");if(flags & TWO) printf("hello funcion2\n");if(flags & THREE) printf("hello funcion3\n");if(flags & FOUR) printf("hello funcion4\n");
}int main()
{show(ONE);printf("----------------------------\n");show(TWO);printf("----------------------------\n");show(ONE | TWO);printf("----------------------------\n");show(TWO | THREE);printf("----------------------------\n");show(ONE | THREE | FOUR);printf("----------------------------\n");return 0;
}

通过位运算，我们就通过给1给标记位传递不同的值，让它表示多种信息。

2.write

第一个参数，就是对应文件的id，就是open的返回值，第二个参数是要写入的起始位置，第三个参数是写入的长度。

下面运行一下，看下结果。我们运行了两次，打印出来的都是一样的，之后我手动往log.txt里面加了一串b，在运行，发现，那一串b并没有被清空，因此，我们可以发现写入的时候是从头覆盖写的，但是并不会对文件做清空处理。

那如果我也想做到清空呢？我们需要在打开文件的时候在加一个宏，O_TRUNC，截断的意思，就是每次打开文件都做清空。

如果我想做到如同C语言中的a一样，追加写呢？还有一个宏，O_APPEND。如果带了O_APPEND就要把O_TRUNC去掉，追加和清空是冲突的。

我们现在用的都是系统调用，fopen，就是用open封装的，"w"方式就会被转化成O_WRONLY | O_CAEAT | O_TRUNC.

这都没问题，但是有一个东西我们一直没谈，就是open的返回值可是一个int啊，但是fopen的返回值是一个FILE类型的指针，这两个玩意八竿子都打不着，有啥关系呢？下面我们就要谈谈文件的管理了。

3.访问文件的本质

操作系统里会有很多个进程，每个进程可能要打开很多个文件，这些被打开的文件要不要被被管理起来呢？要，先描述在组织。操作系统用struct file描述一个被打开的文件信息，struct file里应该包含什么呢？1.文件在磁盘的什么位置 2.文件的基本属性(权限，大小，读写位置，谁打开的...)3.文件的内核缓冲区，总之，这个结构体里包含了文件的大部分信息，类似的，struct file里还有一个strcut* next指针，每打开一个文件，内核创建一个struct file，然后用strcut* next指针链接到一起，此时操作系统要对文件进行增删查改就是对文件链表的增删查改，如果要添加一个文件，就在文件链表里插入，如果要关闭文件，就是把文件的所有属性释放掉，从链表删除，再把数据刷新到磁盘上。

一个进程可能打开多个文件，那些文件是被那个进程打开的呢？我怎么知道，所以，必然要建立进程PCB和打开文件struct file的对应关系。

那怎么建立的呢？在进程PCB里会存在一个指针，struct file_struct *f；这个指针指向struct file_struct结构体，这个结构体里面会包含一个数组，数组的名字叫做 struct file* fd_arrdy[]，这个数组显然是个指针数组，这个数组的下标从0开始，数组每个元素的类型是 struct file*，所以，当我们打开一个文件的时候，操作系统会创建好struct file，然后在这个数组里分配一个下标，把创建好的struct file的地址，填到这个下标上，以后，每个进程就可以根据这个文件描述符表，就能把打开的文件找到。

所以，为啥open的返回值是个整数呢？open会创建一个struct file，然后在当前进程的文件描述符表里找一个没有用过的下标，把创建的struct file的地址填进去，然后把这个数组下标返回给用户，因此，这个int本质就是一个数组的下标。

所以，在我们写的时候，必须得把这个数组的下标传进去，进程通过指针找到文件描述符表，然后在通过这个数组下标，索引到文件的地址，从而往该文件写入。

文件和进程产生关联是通过数组下标关联的，这样就可以做到文件和进程的解耦。

这个文件描述符可还没见过呢，下面我们看看文件描述符是几呢？

我们可以看到是3，下面我们多打开几个文件看看。

可以看到，是连续的整数。但是问题来了，0、1、2哪里去了呢？

4.stdin&&stdout&&stderror

C程序在默认启动的时候，会打开三个标准输入输出流(文件)：stdin(键盘文件)，stdout(显示器文件)，stderr(显示器文件)。所以我们在打印的时候为啥要包含stdio.h呢？std就是标准的意思，io就是输入输出，是C语言会打开吗？任何语言都会打开这三个文件，这不是C语言的特性，是操作系统的特性，电脑在打开的时候，键盘和显示器文件默认就会打开，进程只需要把打开键盘，显示器文件的地址填入即可。因此0、1、2是被这3个家伙占着呢？怎么验证呢？

我们直接用write往1和2里面写入。1和2是显示器文件哦，直接打印出来了。

下面用read接口验证一下0号，键盘文件。

为啥卡住了呢？因为0是键盘文件，在等待键盘就绪！

现在问题又来了哦，可C语言的返回值是FILE指针啊，这和int有啥关系呢？FILE是C语言的内置类型吗？不是，FILE是C库里封装的一个结构体，这个结构体里面一定包含了该文件的数组下标，下面验证一下。

5.文件的引用计数

关闭文件的系统调用是close，现在我们把下标为1的文件stdout关闭。然后打印了stdout和stderr的fileno，fprintf的用法和printf基本一致，只不过前面加了一个文件描述符而已。我们可以看到,printf没有打印在显示器上打印出来，这肯定和我们关闭close有关，因此，printf底层肯定访问了stdout显示器文件，然后我们把stdout关闭，因此在屏幕上就打印不出来了。但是为啥stderr文件能打印出来呢?stdout和stderr都指向显示器文件，因此显示器文件的引用计数就是2，如果再来一个指向显示器，引用计数就会继续增加。当把stdout关闭，引用计数--变成了1，因此stderr还是能打印出来，关闭文件是把该下标的地址填成NULL。

printf也是有返回值的，其实stdout已经关闭了，但printf以为自己打印成功了，因此就把打印的字符个数13返回了过来。

四、重定向

1.文件描述符的分配规则

我们把2号文件描述符关闭之后，新创建的文件描述符就是2，因此我们可以得知，文件描述符的分配规则就是从0下标开始，寻找最小的没有被使用的数组位置，它的下标就是新的文件描述符。

2. 输出重定向

下面我们把2号文件描述符关闭，然后创建一个文件fd，之后调用write往1号文件里写入5次。

1号文件描述符对应的显示器文件，因此我们把内容写入到了显示器上。

下面我们把1号文件描述符关闭，然后创建一个文件fd，之后调用write往1号文件里写入5次。

我们发现，本来应该向1号文件描述符也就是显示器写入的信息，居然写到了 log.txt里，这是因为我们把1号文件描述符关闭了，然后又创建了一个文件，这个文件根据分配规则，就分配到了1号描述符，然后我们往1号描述符里面写，就写到了文件里。本来应该往显示器写却写入到了文件里，这就叫输出重定向。这里我们可以画张图理解一下。

这样写不是不可以，但是要先关一次，然后在打开一个文件，当别人问你为啥这么做的时候，你就要和别人解释半天，有没有一写系统调用能帮我们做这件事呢？打开文件就行了，然后重定向调用函数就行，有这样的接口吗？是有的。

3.重定向系统调用

是有dup,dup2,dup3系统调用的，常用的就dup2，因此我们详细谈谈dup2，dup就是duplicate，复制的意思，参数是2个文件描述符，一个旧的文件描述符，一个新的文件描述符。

那么问题来了，是把旧的文件描述符内容拷贝给新的文件描述符内容，还是新的文件描述符内容拷贝给旧的文件描述符内容呢？这样说吧，dup2之后，2个文件描述符内容全都变成newfd的还是oldfd的？常理来看应该是全都变成newfd吧，但实际结果是全都变成oldfd，这里挺奇怪的是吧，也不懂老外为啥这样起名字。因此如果我们要让1号文件描述符内容是新建的文件描述符fd的内容，要怎么传参呢？就要dup2(fd, 1)这样传参。下面我们来使用一下。

我们用dup2就实现了同样的效果。上面的代码忘记close了，要记得close文件。

4.追加重定向

上面的代码中，文件是O_APPEND方式打开，我们多运行几次，这个log.txt就会越来越大，这就叫追加重定向。

5.输入重定向

read的第一个参数是文件描述符，要读哪个文件，第二个参数是读到哪，第三个是读多少个字节，返回值是实际读了多少个字节。

下面我们读取文件方式改为只读方式，然后读取0号文件，也就是键盘文件，阻塞住了，我们往键盘输入内容，然后回显出来了。

下面我们把0号重定向一下。

我们可以看到本来应该从键盘文件标准输入变读取，变为了从指定的文件读取，这就叫输入重定向。

重定向的本质，就是在内核里对文件的地址做拷贝。

6.1号VS2号

我们直接往1号和2号文件描述符里打印，运行，可以看到没问题，都打印出来了。但是当 ./myfile > normal.txt，也就是把1、2号文件的打印输出重定向到normal.txt文件的时候，为啥2号文件的内容没有重定向到nomral.txt里呢？为啥cat只能看到1号文件描述符重定向的内容呢？这是因为>是把1号显示器的内容重定向到了文件里，和我2号文件描述符有啥关系？

如果我想把正常消息打印到一个文件，错误消息打印到一个文件，该咋办呢？可以进行下图中的操作，这里其实非常直观，就是把1号文件的内容重定向到normal.log，2号文件的内容重定向到err.log里。默认不写的话是把1号重定向到文件。下面就多出来了err.log文件。

那如果我要把1、2的内容重定向到一个文件里咋办呢？

默认不写就是1号文件重定向到all.log文件，指令是从左往右执行的，&1(取地址1)的意思就是把1号文件的内容写入到2号文件里，因为左边的指令已经执行完了，1号文件的地址已经是all.log的地址了，然后把1号文件内容拷贝给2，此时1和2都指向了all.log文件。最后就能都写入到all.log里了。