【linux】基础IO(上)

news/2024/9/24 9:15:20/

1. 共识原理

  1. 文件 = 内容 + 属性
  2. 文件分为 打开的文件 + 没打开的文件
  3. 打开的文件 : 是进程打开的 ----- 本质是要研究文件和进程的关系
  4. 没打开的文件 : 没打开的文件储存在磁盘上,由于没打开的文件很多,所以需要分门别类的防止好,才能快速找到文件
  5. 文件被打开,必须先加载到内存
  6. 进程打开文件的比例是按 1 : 多进行的,所以在操作系统内部,一定存在大量被打开的文件,我们需要去管理 ----------- 先描述再组织 ----------- 在内核中,一个被打开的文件都需要自己的文件打开对象,包含文件的很多属性
  1. C语言程序默认在启动的时候,会打开三个标准输入输出流(文件)

stdin : 键盘文件

stdout : 显示器文件

stderr : 显示器文件

  1. 文件在磁盘上,磁盘是外部设备,访问磁盘文件其实是访问硬件
  2. 几乎所有的库只要是访问硬件设备,必要封装系统调用 (如 fwirte , fprintf , fread)

2. 系统文件I/O

操作文件,除了上述C接口(当然,C++也有接口,其他语言也有),我们还可以采用系统接口来进行文件访问

注意:(有关C接口的一些IO流知识)

  1. C语言的 fopen 第一个参数如果只传文件名,如果没有该文件,则在当前进程的工作路径下 cwd 创建一个文件
  2. fopen 第二次参数如果是 w : 写入之前,都会对文件进行清空,再从头开始写入, a : 是在原内容后面追加写

代码举例

3. 接口介绍

open :

#include <sys/types.h>

#include <sys/stat.h>

#include <fcntl.h>

int open(const char *pathname, int flags);

int open(const char *pathname, int flags, mode_t mode);

pathname: 要打开或创建的目标文件

flags:

打开文件时,可以传入多个参数选项,用下面的一个或者多个常量进行“或”运算,构成flags

O_RDONLY: 只读打开 , O_WRONLY: 只写打开(只有这个选项,写入是覆盖写) , O_RDWR : 读,写打开

这三个常量,必须指定一个且只能指定一个

O_CREAT : 若文件不存在,则创建它。需要使用mode选项,来指明新文件的访问权限

O_APPEND: 追加写

O_TRUNC : 先清空文件内的内容

mode:

决定新文件的访问权限

返回值:

成功:新打开的文件描述符

失败:-1

注意:

  1. flags 实际上是运用了比特位方式的标志位传递方式(大致类似以下)

  1. mode 参数可以决定文件访问权限,但是这是起始权限,最终权限跟 umask有关,如果想要最终权限等于起始权限,进程内部调用 umask(0) , 虽然有系统内部的 umask,但是这里会采用进程里面设置的umask

4. 文件标识符fd

(一)认识文件标识符

我们先来认识一下两个概念: 系统调用 和 库函数

像 fopen fclose fread fwrite 都是C标准库当中的函数,我们称之为库函数

而 open close read write lseek 都属于系统提供的接口,称之为系统调用接口

实际上,上述的库函数是封装了这些系统调用接口 ,而C语言里的File是一个结构体,由于要封装系统调用接口,这个结构体里面一定要存的信息是文件描述符 fd (其他语言也是如此)

由于文件需要被管理起来,所以我们对其先描述,再组织

(二)文件描述符 0 ,1 , 2

Linux进程默认情况下会有3个缺省打开的文件描述符,分别是标准输入0, 标准输出1, 标准错误2.

fd 0,1,2对应的物理设备一般是:键盘,显示器,显示器

代码 验证 fd = 1 fd = 2对应的文件

注意

关闭 标准输出1 不影响 标准错误2,即使是不同的fd,也可鞥是同一个被打开的文件,这里实际上用到了计数引用(智能指针有提到),即当关闭其中一个,count--,文件描述表里面的指针数组,相应下标对应的内容置空即可,只有当 count = 0 , 这个文件才不被打开

(三)文件描述符的分配规则

在files_struct数组当中,找到当前没有被使用的最小的一个下标,作为新的文件描述符

代码举例

5. 重定向

重定向的原理和上述差不多

注意:

进程历史打开的文件与进行的各种重定向关系都和未来进行程序替换无关,程序替换,并不影响文件访问

6. 使用 dup2 系统调用

#include <unistd.h>

int dup2(int oldfd, int newfd);

代码举例1

dup2(fd,1)

将fd文件描述所指向的内容覆盖到1文件描述所指向的内容

7. FILE

因为IO相关函数与系统调用接口对应,并且库函数封装系统调用,所以本质上,访问文件都是通过fd访

问的

FILE结构体里面还有对应打开文件的缓冲区和维护信息

所以C库当中的FILE结构体内部,必定封装了fd

代码 验证File结构体中有 fd

代码(必看,有关缓冲区)

代码一

首先,我们先理解一下缓冲区

printf , fprintf 这些都是库函数,属于C语言提供的,且它们都需要将数据放到缓冲区内(这个缓冲区指代的是C语言提供的缓冲区,每一个进程都有自己的一个缓冲区),对于显示器采取的一般是行缓冲,即碰到 '\n',才把数据刷新到系统提供的缓冲区,最后交给磁盘

write 是属于系统调用接口的函数,调入时,将数据写入系统提供的缓冲区

代码二

对文件采取的一般是全缓冲,即C语言提供的缓冲区满了,才刷新到系统提供的缓冲区

所以 printf,fprintf写入的数据只是放到C语言提供的缓冲区,并没有刷新,当进程退出时,需要刷新C语言提供的缓冲区,这个时候,无论父进程和子进程谁先退出,必然发生写实拷贝,从而造成printf,fprintf写入的内容,父子进程各有一份,且都要刷新

缓冲区刷新问题

三层刷新方式:

  1. 无缓冲 ----- 直接刷新
  2. 行缓冲 ----- 碰到'\n'刷新(一般对应显示器)
  3. 全缓冲 ----- 缓冲区满了才刷新 (一般对应普通文件写入)

还有一种情况,缓冲区也会刷新:

进程退出

为什么要有缓冲区:

  1. 解决效率问题
  2. 配合格式化(实际上的读取,都是当作字符来看待)

目前我们认为,只要将数据刷新到了内核,数据就可以到硬件了


http://www.ppmy.cn/news/1529748.html

相关文章

全国职业院校技能大赛(大数据赛项)-平台搭建Spark、Scala笔记

Spark作为一个开源的分布式计算框架拥有高效的数据处理能力、丰富的生态系统、多语言支持以及广泛的行业应用。Scala是一种静态类型的编程语言&#xff0c;它结合了面向对象编程和函数式编程的特性&#xff0c;被誉为通用的“大数据语言”。而二者的结合更能迸发出新奇的化学反…

浅谈Python之协程和进程

一、基本介绍 在Python中&#xff0c;协程和进程是两种不同的并发执行方式&#xff0c;它们各自有适用的场景和优势。协程通常用于异步I/O操作&#xff0c;而进程则用于CPU密集型任务或需要隔离的并发执行环境。 协程&#xff08;Coroutine&#xff09; 协程是一种程序组件&am…

Dockerfile自定义制作镜像,其中10个指令的作用分析

docker容器中 做镜像是重要的技能。 docker commit只能制作比较简单的镜像&#xff0c; 要制作比较完善的镜像&#xff0c; 自定义程度比较高的&#xff0c; 就需要用到dockerfile dockerfile可以回溯历史 动态生成镜像。 FROM是基础镜像 CMD是在容器创建的时候默认的启动命令 …

【GitLab】安装和使用

安装 拉取gitlab镜像&#xff1a; docker pull gitlab/gitlab-ce:12.7.6-ce.0运行镜像容器&#xff1a; docker run -itd --name gitlab -p 443:443 -p 80:80 -p 222:22 --restart always -m 4GB -v /data/gitlab/config:/etc/gitlab -v /data/gitlab/logs:/var/1og/gitlab …

【Android】模糊搜索与数据处理

【Android】模糊搜索与数据处理 本篇博客主要以根据输入内容动态获取城市为例进行讲解。 获取城市 这一部分主要是根据输入的信息去动态获取城市信息 首先定义了一个名为 NetUtil 的类&#xff0c;主要用于通过 HTTP 请求获取城市信息。 public class NetUtil {private stat…

【Text2SQL】DAIL-SQL阿里推出,在Spider取得了SOTA

论文解读&#xff1a;Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 论文详细介绍了DAIL-SQL方法&#xff0c;这是一个针对Text-to-SQL任务的提示工程方法。这个方法旨在通过精心设计的提示&#xff08;prompt engineering&#xff09;来优化大型语…

Linux 基础入门操作 第九章 进程间通信之管道

第九章 进程间通信 进程通信有如下一些目的&#xff1a; A、数据传输&#xff1a;一个进程需要将它的数据发送给另一个进程&#xff0c;发送的数据量在一个字节到几 M 字节之间 B、共享数据&#xff1a;多个进程想要操作共享数据&#xff0c;一个进程对共享数据的修改&#xf…

【通信基础】精讲通信天线种类及CAN总线和集群关系

前言 在通信行业中&#xff0c;天线的种类非常多&#xff0c;涵盖了从简单的无线电天线到复杂的相控阵天线。这些天线的种类和形态各异&#xff0c;以满足不同频率、应用场景和通信需求。以下是一些主要的天线种类&#xff1a; 1. 通信天线种类 1.1 偶极子天线 (Dipole Ant…