内存管理

MMU：Memory Management Unit，内存管理单元，CPU中独立硬件，负责处理CPU的内存访问请求。虚拟地址到物理地址的转换（即虚拟内存管理）。
物理内存：真实存在的插在主板内存槽上的内存条，提供数据临时储存，也称为主内存(动态随机存取存储器DRAM)。只有内核可以直接访问物理内存。那么，进程想要访问内存时应该怎么做呢？
虚拟内存：计算机系统内存管理的一种技术。Linux内核为每个进程提供了一个独立的虚拟地址空间，这个地址空间是连续的。它使得应用程序认为它拥有连续可用的内存，而实际上物理内存通常被分隔成多个内存碎片，甚至部分暂时存储在外部磁盘存储器上，在需要时进行数据交换。
页面文件：操作系统反映构建并使用虚拟内存的硬盘空间大小而创建的文件。在windows下，即pagefile.sys文件。将内存中暂时不用的数据移动到硬盘上，使用到的时候再读取到内存中。
缺页中断：当程序试图访问已映射在虚拟地址空间中但未被加载至物理内存的一个分页时，由MMU发出的中断。如果操作系统判断此次访问是有效的，则尝试将相关的页从虚拟内存文件中载入物理内存。

页表：Page Table，存储在 CPU 的 MMU（内存管理单元）中。当在页表中找不到进程访问的虚拟地址时，系统会产生“缺页异常”，进入内核空间定位物理内存，然后更新进程的页表，最后返回用户空间恢复进程。

虚拟内存

把地址空间定义为“连续的虚拟内存地址”，以借此“欺骗”程序，使它们以为自己正在使用一大块的“连续”地址。使程序的编写变得更容易，对真正的物理内存的使用也更有效率。此外，虚拟内存技术可以使多个进程共享同一个运行库，并通过分割不同进程的内存空间来提高系统的安全性。

把内存扩展到磁盘是使用虚拟内存技术的一个结果，可通过覆盖或者把处于不活动状态的程序以及它们的数据全部交换到磁盘上等方式来实现。

虚拟地址空间分为内核空间和用户空间两部分。具有不同字长（单个 CPU 指令可以处理的最大数据长度）的处理器具有不同的地址空间范围。例如，对于 32 位和 64 位系统，下图显示了它们的虚拟内存空间：

还记得进程的用户模式和内核模式吗？当一个进程处于用户态时，它只能访问用户空间内存；只有进入内核模式后才能访问内核空间内存。每个进程的地址空间都包含内核空间，这些内核空间实际上是与同一个物理内存相关联的。这样，进程切换到内核模式后，就可以轻松访问内核空间内存。

由于每个进程都有这么大的地址空间，所有进程加起来的虚拟内存自然要比实际的物理内存大很多。因此，并不是所有的虚拟内存都会分配物理内存，只有实际使用的虚拟内存才会分配物理内存，分配的物理内存是通过内存映射来管理的。为了完成内存映射，内核为每个进程维护一张页表，记录虚拟内存地址和物理地址的映射关系。

为什么会有虚拟内存和物理内存的区别？
假如物理内存条大小是1G，一个进程却需要1.1G的内存空间，那么所有数据不可能都加载到物理内存中，必然有数据要放到其他介质中（比如硬盘），待进程需要访问那部分数据时，再调度进入物理内存。

什么是虚拟内存地址和物理内存地址？
假设你的计算机是32位，那么它的地址总线是32位的，也就是它可以寻址00xFFFFFFFF（4G）的地址空间，但如果你的计算机只有256M的物理内存0x0x0FFFFFFF（256M），同时你的进程产生了一个不在这256M地址空间中的地址，那么计算机该如何处理呢？回答这个问题前，先说明计算机的内存分页机制。

计算机会对虚拟内存地址空间（32位为4G）进行分页产生页（page），对物理内存地址空间（假设256M）进行分页产生页帧（page frame），页和页帧的大小一样，所以虚拟内存页的个数势必要大于物理内存页帧的个数。在计算机上有一个页表（page table），就是映射虚拟内存页到物理内存页帧的，更确切的说是页号到页帧号的映射，而且是一对一的映射。
问题来了，虚拟内存页的个数 > 物理内存页帧的个数，岂不是有些虚拟内存页的地址永远没有对应的物理内存地址空间？不是的，操作系统是这样处理的。操作系统有个页面失效（page fault）功能。操作系统找到一个最少使用的页帧，使之失效且把它写入磁盘，随后把需要访问的页放到该页帧中，并修改页表中的映射，保证了所有的页都可以被调度。

现在来看看什么是虚拟内存地址和物理内存地址：

虚拟内存地址：由页号（页表中的页号）和偏移量（页的大小，即这个页能存多少数据）组成。
举个例子，有一个虚拟地址它的页号是4，偏移量是20，那么他的寻址过程是这样的：首先到页表中找到页号4对应的页帧号，找到直接使用；如果没找到，则用失效机制调入页，接着把页帧号和偏移量传给MMU组成一个物理上真正存在的地址，最后就是访问物理内存的数据。

虚拟内存空间分布

以 32 位系统为例，关系如下：

只读段：包括代码和常量等
数据段：包括全局变量等
堆：包括动态分配的内存，从低地址开始向上增长
映射区域：包括动态库、共享库等。从高地址开始向下增长。
堆栈：包括局部变量和函数调用的上下文等。堆栈大小固定为8MB。

在五个内存段中，堆和映射区域段的内存是动态分配的。例如，使用 C 标准库 malloc() 或 mmap()，可以分别在堆和文件映射段中动态分配内存。

当发现内存不足时，系统会通过一系列机制回收内存，例如以下三种方式：

回收缓存，比如使用LRU（Least Recent Used）算法回收最近最少使用的内存页；
回收不经常访问的内存，将不经常使用的内存通过交换分区直接写入磁盘；
杀死进程。当内存紧张时，系统会通过OOM（Out of Memory）直接杀死占用大量内存的进程。

内存映射

内存映射不仅是物理内存和虚拟内存间的映射，也包括将文件中的内容映射到虚拟内存空间。

内存映射是在进程的虚拟地址空间中创建一个映射，分为以下两种。

（1）文件映射：文件支持的内存映射，把文件的一个区间映射到进程的虚拟地址空间，数据源是存储设备上的文件。

（2）匿名映射：没有文件支持的内存映射，把物理内存映射到进程的虚拟地址空间，没有数据源。

通常把文件映射的物理页称为文件页，把匿名映射的物理页称为匿名页。

根据修改是否对其他进程可见和是否传递到底层文件，内存映射分为共享映射和私有映射。

（1）共享映射：修改数据时映射相同区域的其他进程可以看见，如果是文件映射，修改会传递到底层文件。

（2）私有映射：第一次修改数据时会从数据源复制一个副本，然后修改副本，其他进程看不见，不影响数据源。

两个进程可以使用共享的文件映射实现共享内存。匿名映射通常是私有映射，共享的匿名映射只可能出现在父进程和子进程之间。

在进程的虚拟地址空间中，代码段和数据段是私有的文件映射，未初始化数据段、堆和栈是私有的匿名映射。

内存映射的原理如下

（1）创建内存映射的时候，在进程的用户虚拟地址空间中分配一个虚拟内存区域。

（2）Linux 内核采用延迟分配物理内存的策略，在进程第一次访问虚拟页的时候，产生缺页异常。如果是文件映射，那么分配物理页，把文件指定区间的数据读到物理页中，然后在页表中把虚拟页映射到物理页；如果是匿名映射，那么分配物理页，然后在页表中把虚拟页映射到物理页。

mmap

内存管理子系统提供了系统调用函数 mmap 用来创建内存映射，C 标准库封装了库函数 mmap() 用来创建内存映射。

void *mmap(void *addr, size_t length, int prot, int flags,  int fd, off_t offset);

应用程序可以直接使用 mmap() 向内核申请虚拟内存，调用 mmap() 有以下用处。

（1）进程创建匿名的内存映射，把内存的物理页映射到进程的虚拟地址空间。

（2）进程把文件映射到进程的虚拟地址空间，可以像访问内存一样访问文件，不需要调用系统调用read()和write()访问文件，从而避免用户模式和内核模式之间的切换(数据copy)，提高读写文件的速度。

（3）两个进程针对同一个文件创建共享的内存映射，实现共享内存。

参数如下。

（1）addr：起始虚拟地址。如果 addr 是 0，内核选择虚拟地址。如果 addr 不是 0，内核把这个参数作为提示，在附近选择虚拟地址。

（2）length：映射的长度，单位是字节。

（3）prot：保护位。

（4）flags：标志。

（5）fd：文件描述符。仅当创建文件映射的时候，这个参数才有意义。如果是匿名映射，有些实现要求参数 fd 是−1，可移植的应用程序应该保证参数 fd 是−1。

（6）offset：偏移，单位是字节，必须是页长度的整数倍。仅当创建文件映射的时候，这个参数才有意义。

返回值：

如果成功，返回起始虚拟地址(地址指针)，否则返回负的错误号。

作为 coder，可把虚拟内存空间无视掉，进程（和 coder）只需要管对内存怎样使用，将虚拟空间和 MMU 都透明化。

mmap内存映射原理

mmap内存映射的实现过程，总的来说可以分为三个阶段：

（一）进程启动映射过程，并在虚拟地址空间中为映射创建虚拟映射区域

1、进程在用户空间调用库函数mmap，原型：void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);

2、在当前进程的虚拟地址空间中，寻找一段空闲的满足要求的连续的虚拟地址

3、为此虚拟区分配一个vm_area_struct结构，接着对这个结构的各个域进行了初始化

4、将新建的虚拟区结构（vm_area_struct）插入进程的虚拟地址区域链表或树中

（二）调用内核空间的系统调用函数mmap（不同于用户空间函数），实现文件物理地址和进程虚拟地址的一一映射关系

5、为映射分配了新的虚拟地址区域后，通过待映射的文件指针，在文件描述符表中找到对应的文件描述符，通过文件描述符，链接到内核“已打开文件集”中该文件的文件结构体（struct file），每个文件结构体维护着和这个已打开文件相关各项信息。

6、通过该文件的文件结构体，链接到file_operations模块，调用内核函数mmap，其原型为：int mmap(struct file *filp, struct vm_area_struct *vma)，不同于用户空间库函数。

7、内核mmap函数通过虚拟文件系统inode模块定位到文件磁盘物理地址。

8、通过remap_pfn_range函数建立页表，即实现了文件地址和虚拟地址区域的映射关系。此时，这片虚拟地址并没有任何数据关联到主存中。

（三）进程发起对这片映射空间的访问，引发缺页异常，实现文件内容到物理内存（主存）的拷贝

注：前两个阶段仅在于创建虚拟区间并完成地址映射，但是并没有将任何文件数据的拷贝至主存。真正的文件读取是当进程发起读或写操作时。

9、进程的读或写操作访问虚拟地址空间这一段映射地址，通过查询页表，发现这一段地址并不在物理页面上。因为目前只建立了地址映射，真正的硬盘数据还没有拷贝到内存中，因此引发缺页异常。

10、缺页异常进行一系列判断，确定无非法操作后，内核发起请求调页过程。

11、调页过程先在交换缓存空间（swap cache）中寻找需要访问的内存页，如果没有则调用nopage函数把所缺的页从磁盘装入到主存中。

12、之后进程即可对这片主存进行读或者写的操作，如果写操作改变了其内容，一定时间后系统会自动回写脏页面到对应磁盘地址，也即完成了写入到文件的过程。

注：修改过的脏页面并不会立即更新回文件中，而是有一段时间的延迟，可以调用msync()来强制同步, 这样所写的内容就能立即保存到文件里了。

mmap和常规文件操作的区别

常规文件系统操作（调用read/write等系统函数）中，函数的调用过程：

1、进程发起读文件请求。

2、内核通过查找进程文件符表，定位到内核已打开文件集上的文件信息，从而找到此文件的inode。

3、inode在address_space上查找要请求的文件页是否已经缓存在页缓存中。如果存在，则直接返回这片文件页的内容。

4、如果不存在，则通过inode定位到文件磁盘地址，将数据从磁盘复制到页缓存。之后再次发起读页面过程，进而将页缓存中的数据发给用户进程。

总结来说，常规文件操作为了提高读写效率和保护磁盘，使用了页缓存机制。这样造成读文件时需要先将文件页从磁盘拷贝到页缓存中，由于页缓存处在内核空间，不能被用户进程直接寻址，所以还需要将页缓存中数据页再次拷贝到内存对应的用户空间中。这样，通过了两次数据拷贝过程，才能完成进程对文件内容的获取任务。写操作也是一样，待写入的buffer在内核空间不能直接访问，必须要先拷贝至内核空间对应的主存，再写回磁盘中（延迟写回），也是需要两次数据拷贝。

而使用 mmap 进行的文件操作中，首先会创建新的虚拟内存区域与文件磁盘地址之间的映射关系，在之后数据访问中，如果发现内存中并无相应的数据，则发起缺页异常，通过已经建立好的映射关系，只使用一次数据拷贝就将数据从磁盘中拷贝到用户空间中，供用户态进程使用。

综上，read/write 操作需要经历磁盘文件到内核页缓存再到用户空间缓存的两次数据拷贝。而 mmap 函数只需要从磁盘文件拷贝到内核缓存，然后用户进程直接就可以通过 Share 的方式进行访问，只存在一次数据拷贝过程。因此 mmap 效率更高。所以 mmap 也常被用在 “零拷贝” 场景中。说白了，mmap的关键点是实现了用户空间和内核空间的数据直接交互。

mmap 优点

减少了数据的拷贝次数，用内存读写取代 I/O 读写，提高了文件读取效率。
实现了用户空间和内核空间的高效交互（映射）方式。各自的空间修改操作都会直接反映在共享（Shared）区域内，从而被对方空间及时捕捉到。
提供不同进程间共享内存及相互通信的方式。无论是父子进程，还是无亲缘关系的进程之间，都可以将自身的用户空间映射到同一个文件或匿名映射到同一片区域。从而通过各自对映射区域的改动，达到进程间通信和进程间共享的目的。例如：进程 A、B 都映射了区域 Z，当 A 第一次读取 C 时，通过缺页机制从磁盘中复制文件页到共享内存；当 B 再读 C 的相同页面时，虽然也会产生缺页异常，但是不再需要从磁盘中复制文件过来，而可直接使用已经保存在内存中的文件数据。
可用于实现高效的大规模数据传输。通常的，内存空间不足是制约大数据操作的一个方面，解决方案可以是借助硬盘空间协助操作，补充内存空间的不足。但是也会进一步的造成了大量的文件 I/O 操作，极大的影响了执行效率。这个问题可以通过 mmap 映射很好的解决，但凡需要用磁盘空间代替内存的时候，mmap 都可以发挥其功效。

FileChannel的map

Java FileChannel中，也提供了内存映射的操作，可以使用它来加速文件的读写。

FileChannel提供了map方法来实现文件的内存映射：

public abstract MappedByteBuffer map(MapMode mode, long position, long size)   throws IOException;

可以把文件的从position开始的size大小的区域映射为内存映像文件，mode指出了可访问该内存映像文件的方式：READ_ONLY，READ_WRITE，PRIVATE。

READ_ONLY,（只读）：试图修改得到的缓冲区将导致抛出 ReadOnlyBufferException.(MapMode.READ_ONLY)
READ_WRITE（读/写）：对得到的缓冲区的更改最终将传播到文件；该更改对映射到同一文件的其他程序不一定是可见的。 (MapMode.READ_WRITE)
PRIVATE（专用）：对得到的缓冲区的更改不会传播到文件，并且该更改对映射到同一文件的其他程序也不是可见的；相反，会创建缓冲区已修改部分的专用副本。 (MapMode.PRIVATE)

FileChannel.map() 读取文件例子：

    public static void main(String args[]){RandomAccessFile f = null;try {f = new RandomAccessFile("C:/hinusDocs/hello.txt", "rw");RandomAccessFile world = new RandomAccessFile("C:/hinusDocs/world.txt", "rw");FileChannel fc = f.getChannel();MappedByteBuffer buf = fc.map(FileChannel.MapMode.READ_WRITE, 0, 20);FileChannel worldChannel = world.getChannel();MappedByteBuffer worldBuf = worldChannel.map(FileChannel.MapMode.READ_WRITE, 0, 20);worldBuf.put(buf);fc.close();f.close();world.close();worldChannel.close();} catch (Exception e) {e.printStackTrace();}}

使用 FileChannel.map() 返回的 MappedByteBuffer 可实现内存共享，在两个Java进程中各使用一次map将文件映射到内存，这样两个进程就可以直接通过这个共享内存来实现进程间的数据通信了。

参考：

【译】Linux——内存管理是如何工作的？ | HeapDump性能社区

Linux操作系统学习笔记（十）内存管理之内存映射 | Ty-Chen's Home

FileChannel的map - 知乎