【网络篇】计算机网络——网络层详述（笔记）

一、网络层

1. 网络传输流程简述

2. 转发和路由选择

3. 控制平面：SDN 方法

二、路由器工作原理

1. 概述

（1）输入端口

（2）交换结构

（3）输出端口

（4）路由选择处理器

2. 输入端口处理和基于目的地转发

3. 交换

（1）经内存交换

（2）经总线交换

（3）经互联网络交换

4. 输出端口处理

三、网际协议：IPv4、寻址、IPv6

1. IPv4 数据报分片

2. IPv4编址

3. DHCP（动态主机配置协议）

（1）DHCP 服务器发现

（2）DHCP 服务器提供

（3）DHCP 请求

（4）DHCP ACK

NAT%EF%BC%88%E7%BD%91%E7%BB%9C%E5%9C%B0%E5%9D%80%E8%BD%AC%E6%8D%A2%EF%BC%89-toc" style="margin-left:40px;">4. NAT（网络地址转换）

5. 从IPv4 到IPV6 的迁移

6. 通用转发和 SDN

（1）概述

（2）匹配

（3）动作

① 转发

② 丢弃

③ 修改宇段

一、网络层

1. 网络传输流程简述

上图显示了一个简单网络，其中有 H1 和 H2 两台主机，在 H1 与 H2 之间的路径上有几台路由器。假设 H1 正在向 H2 发送信息，考虑这些主机与中间路由器的网络层所起的作用。

H1 中的网络层取得来自于 H1 运输层的报文段，将每个报文段封装成一个数据报，然后向相邻路由器 R1 发送该数据报。在接收方主机 H2，网络层接收来自相邻路由器 R2 的数据报，提取出运输层报文段，并将其向上交付给 H2 的运输层。

每台路由器的数据平面的主要作用是从其输入链路向其输出链路转发数据报；控制平面的主要作用是协调这些本地的每路由器转发动作，使得数据报沿着源和目的地主机之间的路由器路径最终进行端到端传送。

2. 转发和路由选择

网络层的作用从表面上看极为简单，即将分组从一台发送主机移动到一台接收主机。为此，需要使用两种重要的网络层功能：转发和路由选择。

转发（forwarding）是指将分组从一个输人链路接口转移到适当的输出链路接口的路由器本地动作。转发发生的时间尺度很短（通常为几纳秒），因此通常用硬件来实现。路由选择（routing）是指确定分组从源到目的地所采取的端到端路径的网络范围处理过程。路由选择发生的时间尺度长得多（通常为几秒），因此通常用软件来实现。

        用驾驶的例子进行类比，假设旅行者历经从宾夕法尼亚州到佛罗里达州的行程。

        在这个行程中，驾驶员在到佛罗里达州的途中经过了许多立交桥。我们能够认为转发就像通过单个立交桥的过程：一辆汽车从其道路上进人立交桥的一个入口，并且决定应当走哪条路来离开该立交桥。

        我们可以把路由选择看作是规划从宾夕法尼亚州到佛罗里达州行程的过程：在着手行程之前，驾驶员已经查阅了地图并在许多可能的路径中选择一条，其中每条路径都由一系列经立交桥连接的路段组成。

每台网络路由器中有一个关键元素是它的 转发表（forwarding table）。路由器检查到达分组首部的一个或多个字段值，进而使用这些首部值在其转发表中索引，通过这种方法来转发分组。这些值对应存储在转发表项中的值，指出了该分组将被转发的路由器的输出链路接口。

如下图中，一个首部字段值为 0111 的分组到达路由器。该路由器在它的转发表中索引，并确定该分组的输出链路接口是接口 2。该路由器则在内部将该分组转发到接口 2。

3. 控制平面：SDN 方法

上图中显示的实现路由选择功能的方法，是路由选择厂商在其产品中采用的传统方法。使用该方法，每台路由器都有一个与其他路由器的路由选择组件通信的路由选择组件。然而，对人类能够手动配置转发表的观察启发我们，对于控制平面功能来说，也许存在其他方式来确定数据平面转发表的内容。

下图显示了从路由器物理上分离的另一种方法，远程控制器计算和分发转发表以供每台路由器所使用。两种方法数据平面组件是相同的。而在下图中，控制平面路由选择功能与物理的路由器是分离的，即 路由选择设备仅执行转发，而远程控制器计算并分发转发表。远程控制器可能实现在具有高可靠性和冗余的远程数据中心中，并可能由 ISP 或某些第三方管理。

路由器和远程控制器是如何通信的呢？

通过交换包含转发表和其他路由选择信息的报文。显示在下图中的控制平面方法是 软件定义网络（Soft-ware-Defined Networking，SDN）的本质，因为计算转发表并与路由器交互的控制器是用软件实现的，故网络是 “ 软件定义 ” 的。

这些软件实现也越来越开放，换言之类似于 Linux 操作系统代码，这些代码可为公众所用，允许 ISP（以及网络研究者和学生）去创新并对控制网络层功能的软件提出更改建议。

二、路由器工作原理

1. 概述

上图显示了一个通用路由器体系结构的总体视图，其中标识了一台路由器的 4 个组件。

（1）输入端口

输入端口（input port）执行几项重要功能。它在路由器中执行终结入物理链路的物理层功能，这显示在图中输入端口部分最左侧的方框与输出端口部分最右侧的方框中。

它还要与位于入链路远端的数据链路层交互来执行数据链路层功能，这显示在输入与输出端口部分中间的方框中。

更为重要的是，在输入端口还要执行查找功能，这显示在输入端口最右侧的方框中。在这里，通过查询转发表决定路由器的输出端口，到达的分组通过路由器的交换结构转发到输出端口。

控制分组（如携带路由选择协议信息的分组）从输入端口转发到路由选择处理器。注意这里的 “端口” 一词，指的是路由器的物理输入和输出接口，完全不同于与网络应用程序和套接字相关联的软件端口。

在实践中，一台路由器所支持的端口数量范围较大，从企业路由器具有数量相对少的端口，到位于某ISP边缘的路由器具有数以百计 10Gbps 端口（其中人线路的数量趋于最大）。

（2）交换结构

交换结构将路由器的输入端口连接到它的输出端口。这种交换结构完全包含在路由器之中，即它是一个网络路由器中的网络。

（3）输出端口

输出端口存储从交换结构接收的分组，并通过执行必要的链路层和物理层功能在输出链路上传输这些分组。当一条链路是双向的时（即承载两个方向的流量），输出端口通常与该链路的输入端口成对出现在同一线路卡上。

（4）路由选择处理器

路由选择处理器执行控制平面功能。在传统的路由器中，它执行路由选择协议，维护路由选择表与关联链路状态信息，并为该路由器计算转发表。

        路由器的输入端口、输出端口和交换结构几乎总是用硬件实现。为何需要用硬件实现？

        考虑具有10Gbps 输人链路和 64 字节的 IP 数据报，其输人端口在另一个数据报到达前仅有 51.2ns 来处理数据报。如果 N 个端口结合在一块线路卡上（因为实践中常常这样做），数据报处理流水线必须以 N 倍速率运行，这远快过软件实现的速率。

        转发硬件既能够使用路由器厂商自己的硬件设计来实现，也能够使用购买的商用硅片的硬件设计来实现。

        当数据平面以纳秒时间尺度运行时，路由器的控制功能以毫秒或秒时间尺度运行，这些控制功能包括执行路由选择协议、对上线或下线的连接链路进行响应、与远程控制器通信（在 SDN 场合）和执行管理功能。因而这些控制平面（control plane）的功能通常用软件实现并在路由选择处理器（通常是一种传统的 CPU）上执行。

2. 输入端口处理和基于目的地转发

下图显示了一个更详细的输入处理的视图。

输入端口的线路端接功能与链路层处理实现了用于各个输入链路的物理层和链路层。

在输入端口中执行的查找 对于路由器运行是至关重要的。正是在这个地方，路由器使用转发表来查找输出端口，使得到达的分组能经过交换结构转发到该输出端口。

转发表 是由 路由选择处理器 计算和更新的（使用路由选择协议与其他网络路由器中的路由选择处理器进行交互），或者转发表接收来自远程 SDN 控制器的内容。

转发表从 路由选择处理器 经过独立总线（例如一个 PCI 总线）复制到线路卡，在上图中该总线由从路由选择处理器到输入线路卡的虚线所指示。使用在每个输入端口的影子副本，转发决策能在每个输入端口本地做出，无须基于每个分组调用集中式路由选择处理器，因此避免了集中式处理的瓶颈。

现在来考虑 “最简单” 的情况，一个入分组基于该分组的目的地址交换到输出端口。在 32 比特 IP 地址的情况下，转发表的蛮力实现将针对每个目的地址有一个表项。因为有超过 40 亿个可能的地址，选择这种方法总体上是不可行的。

举个处理规模的例子。假设一台路由器具有 4 条链路，编号 0 到 3，分组以如下方式转发到链路接口：

显然，对于这个例子，在路由器的转发表中没有必要有 40 亿个表项。例如，我们能够有一个如下仅包括 4 个表项的转发表：

上图这种风格的转发表，路由器用分组目的地址的前缀（prefix）与该表中的表项进行匹配；如果存在一个匹配项，则路由器向与该匹配项相关联的链路转发分组。

例如，假设分组的目的地址是 11001000 00010111 00010110 10100001，因为该地址的 21 比特前缀匹配该表的第一项，所以路由器向链路接口转发该分组。如果一个前缀不匹配前 3 项中的任何一项，则路由器向链路接口 3 转发该分组。

当有多个匹配时，例如地址 11001000 00010111 00011000 10101010 的前 24 比特与表中的第二项匹配，而该地址的前 21 比特与表中的第三项匹配，该路由器使用 最长前缀匹配规则（longestprefix matching rule），即 在该表中寻找最长的匹配项，并向与最长前缀匹配相关联的链路接口转发分组。

假定转发表已经存在，从概念上讲表查找是简单的，硬件逻辑只是搜索转发表查找最长前缀匹配。但在吉比特速率下，这种查找必须在纳秒级执行。因此，不仅必须要用硬件执行查找，而且需要对大型转发表使用超出简单线性搜索的技术。

一旦通过查找确定了某分组的输出端口，则该分组就能够发送进人交换结构。在某些设计中，如果来自其他输入端口的分组当前正在使用该交换结构，一个分组可能会在进入交换结构时被暂时阻塞。因此，一个被阻塞的分组必须要在输入端口处排队，并等待稍后被及时调度以通过交换结构。

尽管 “查找” 在输入端口处理中可认为是最为重要的动作，但必须采取许多其他动作：

① 必须出现物理层和链路层处理。

② 必须检查分组的版本号、检验和以及寿命字段，并且重写后两个字段。

③ 必须更新用于网络管理的计数器（如接收到的 IP 数据报的数目）。

注意：

输入端口查找目的 IP 地址（“匹配”），然后发送该分组进入交换结构（“动作”）的步骤是一种更为一般的 “匹配加动作” 抽象的特定情况，这种抽象在许多网络设备中执行，而不仅在路由器中。

3. 交换

交换结构位于一台路由器的核心部位，因为正是通过这种交换结构，分组才能实际地从一个输入端口交换（即转发）到一个输出端口中。交换可以用许多方式完成，如下图。

（1）经内存交换

最简单、最早的路由器是传统的计算机，在输入端口与输出端口之间的交换是在 CPU（路由选择处理器）的直接控制下完成的。输入与输出端口的功能就像在传统操作系统中的 I/O 设备一样。

一个分组到达一个输入端口时，该端口会先通过中断方式向路由选择处理器发出信号。于是，该分组从输入端口处被复制到处理器内存中。

路由选择处理器则从其首部中提取目的地址，在转发表中找出适当的输出端口，并将该分组复制到输出端口的缓存中。

在这种情况下，如果内存带宽为每秒可写进内存或从内存读出最多 B 个分组，则总的转发吞吐量（分组从输入端口被传送到输出端口的总速率）必然小于 B/2。（这里不能同时转发两个分组，即使它们有不同的目的端口，因为经过共享系统总线一次仅能执行一个内存读/写。）

许多现代路由器通过内存进行交换。然而，与早期路由器的一个主要差别是，目的地址的查找和将分组存储（交换）进适当的内存存储位置是由输入线路卡来处理的。

在某些方面，经内存交换的路由器看起来很像共享内存的多处理器，用一个线路卡上的处理将分组交换（写）进适当的输出端口的内存中。

（2）经总线交换

在这种方法中，输入端口经一根共享总线将分组直接传送到输出端口，不需要路由选择处理器的干预。通常按以下方式完成该任务：

让输入端口为分组预先计划一个交换机内部标签（首部），指示本地输出端口，使分组在总线上传送和传输到输出端口。该分组能由所有输出端口收到，但只有与该标签匹配的端口才能保存该分组。然后标签在输出端口被去除，因为其仅用于交换机内部来跨越总线。

如果多个分组同时到达路由器，每个位于不同的输出端口，除了一个分组外所有其他分组必须等待，因为一次只有一个分组能够跨越总线。

每个分组必须跨过单一总线，故路由器的交换带宽受总线速率的限制；在环状交叉路的类比中，这相当于环状交叉路一次仅包含一辆汽车。

（3）经互联网络交换

克服单一、共享式总线带宽限制的一种方法是，使用一个更复杂的互联网络。

纵横式交换机就是一种由 2w 条总线组成的互联网络，它连接 N 个输入端口与 N 个输出端口。每条垂直的总线在交叉点与每条水平的总线交叉，交叉点通过交换结构控制器（其逻辑是交换结构自身的一部分）能够在任何时候开启和闭合。

由上图，当某分组到达端口 A，需要转发到端口 Y 时，交换机控制器闭合总线 A 和 Y 交叉部位的交叉点，然后端口 A 在其总线上发送该分组，该分组仅由总线 Y 接收。

注意到来自端口 B 的一个分组在同一时间能够转发到端口 X，因为 A 到 Y 和 B 到义的分组使用不同的输入和输出总线。因此，与前面两种交换方法不同，纵横式网络能够并行转发多个分组。纵横式交换机是 非阻塞的（non-blocking），即只要没有其他分组当前被转发到该输出端口，转发到输出端口的分组将不会被到达输出端口的分组阻塞。

然而，如果来自两个不同输入端口的两个分组其目的地为相同的输出端口，则一个分组必须在输入端等待，因为在某个时刻经给定总线仅能够发送一个分组。

4. 输出端口处理

输出端口处理取出已经存放在输出端口内存中的分组并将其发送到输出链路上。这包括选择和取出排队的分组进行传输，执行所需的链路层和物理层传输功能。

三、网际协议：IPv4、寻址、IPv6

1. IPv4 数据报分片

并不是所有链路层协议都能承载相同长度的网络层分组。有的协议能承载大数据报，而有的协议只能承载小分组。例如，以太网帧能够承载不超过 1500 字节的数据，而某些广域网链路的帧可承载不超过 576 字节的数据。

一个链路层帧能承载的最大数据量叫作 最大传送单元（ Maximum Transmission Unit, MTU）。因为每个 IP 数据报封裝在链路层帧中从一台路由器传输到下一台路由器，故链路层协议的 MTU 严格地限制着 IP 数据报的长度。

对 IP 数据报长度具有严格限制并不是主要问题。问题在于在发送方与目的地路径上的每段链路可能使用不同的链路层协议，且每种协议可能具有不同的 MTU。

想象自己是一台互联几条链路的路由器，且每条链路运行具有不同 MTU 的链路层协议。假定你从某条链路收到一个 IP 数据报，通过检查转发表确定出链路，并且该条出链路的 MTU 比该 IP 数据报的长度要小。

此时你会感到慌乱，如何将这个过大的 IP 分组挤进链路层帧的有效载荷字段呢？解决该问题的方法是 将 IP 数据报中的数据分片成两个或更多个较小的 IP 数据报，用单独的链路层帧封装这些较小的 IP 数据报，然后通过输出链路发送这些帧。

每个这些较小的数据报都称为 片（fragment）。片在其到达目的地运输层以前需要重新组装。

IPv4 的设计者感到在路由器中重新组装数据报会给协议带来相当大的复杂性并且影响路由器的性能。为坚持网络内核保持简单的原则，IPv4 的设计者决定将数据报的重新组装工作放到端系统中，而不是放到网络路由器中。

当一台目的主机从相同源收到一系列数据报时，它需要确定这些数据报中的某些是否是一些原来较大的数据报的片。如果某些数据报是这些片的话，则它必须进一步确定何时收到了最后一片，并且如何将这些接收到的片拼接到一起以形成初始的数据报。

为了让目的主机执行这些重新组装任务，IPv4 的设计者将标识、标志和片偏移字段放在 IP 数据报首部中。

当生成一个数据报时，发送主机在为该数据报设置源和目的地址的同时贴上标识号。发送主机通常将它发送的每个数据报的标识号加 1。当某路由器需要对一个数据报分片时，形成的每个数据报（即片）具有初始数据报的源地址、目的地址与标识号。

当目的地从同一发送主机收到一系列数据报时，它能够检查数据报的标识号以确定哪些数据报实际上是同一较大数据报的片。

由于 IP 是一种不可靠的服务，一个或多个片可能永远到达不了目的地。因为这种原因，为了让目的主机绝对地相信它已收到了初始数据报的最后一个片，最后一个片的标志比特被设为 0，而所有其他片的标志比特被设为 1。

另外，为了让目的主机确定是否丢失了一个片（且能按正确的顺序重新组装片），使用偏移字段指定该片应放在初始 IP 数据报的哪个位置。

上图中，一个 4000 字节的数据报（20 字节 IP 首部加上 3980 字节 IP 有效载荷）到达一台路由器，且必须被转发到一条 MTU 为1500 字节的链路上。这就意味着初始数据报中 3980 字节数据必须被分配为 3 个独立的片（其中的每个片也是一个 IP 数据报），到达目的主机后再进行重组。

2. IPv4编址

一台主机通常只有一条链路连接到网络；当主机中的 IP 想发送一个数据报时，它就在该链路上发送。主机与物理链路之间的边界叫作 接口（interface）。

现在考虑一台路由器及其接口。因为路由器的任务是从链路上接收数据报并从某些其他链路转发出去，路由器必须拥有两条或更多条链路与它连接。路由器与它的任意一条链路之间的边界也叫作接口。一台路由器因此有多个接口，每个接口有其链路。

因为每台主机与路由器都能发送和接收 IP 数据报，IP 要求每台主机和路由器接口拥有自己的 IP 地址。因此，从技术上讲，一个 IP 地址与一个接口相关联，而不是与包括该接口的主机或路由器相关联。

每个 IP 地址长度为 32 比特（等价为 4 字节），因此总共有 2^32 个（或大约 40 亿个）可能的 IP 地址。这些地址通常按所谓 点分十进制记法（dotled-decimal notation） 书写，即地址中的每个字节用它的十进制形式书写，各字节间以句点隔开。例如，考虑 IP 地址193.32.216.9，193 是该地址的第一个 8 比特的十进制等价数，32 是该地址的第二个 8 比特的十进制等价数，依次类推。因此，地址 193.32.216.9 的二进制记法是：

在全球因特网中的每台主机和路由器上的每个接口，都必须有一个全球唯一的 IP 地址（在 NAT 后面的接口除外）。然而，这些地址不能随意地自由选择。

一个接口的 IP 地址的一部分需要由其连接的子网来决定。

上图提供了一个 IP 编址与接口的例子。

在该图中，一台路由器（具有 3 个接口）用于互联 7 台主机。仔细观察分配给主机和路由器接口的 IP 地址，有几点需要注意。图中左上侧的 3 台主机以及它们连接的路由器接口，都有一个形如 223.1.1.xxx 的 IP 地址。这就是说，在它们的 IP 地址中，最左侧的 24 比特是相同的。

这 4 个接口也通过一个并不包含路由器的网络互联起来。该网络可能由一个以太网 LAN 互联，在此情况下，这些接口将通过一台以太网交换机互联，或者通过一个无线接入点互联。我们此时将这种无路由器连接这些主机的网络表示为一朵云。

用 IP 的术语来说，互联这 3 个主机接口与 1 个路由器接口的网络形成一个 子网（sub-net）。IP 编址为这个子网分配一个地址 223.1.1.0/24，其中的 /24 记法，有时称为 子网掩码（network mask），指示 32 比特中的最左侧 24 比特定义了子网地址。因此子网 223.1.1.0/24 由 3 个主机接口（223.1.1.1、223.1.1.2和 223.1.1.3）和 1 个路由器接口（223.1.1.4）组成。

任何其他要连到 223.1.1.0/24 网络的主机都要求其地址具有 223.1.1.xxx 的形式。

上图中显示了另外两个网络：223.1.2.0/24 网络与 223.1.3.0/24 子网。一个子网的 IP 定义并不局限于连接多台主机到一个路由器接口的以太网段。为了搞清其中的道理，可考虑下图，图中显示了 3 台通过点对点链路彼此互联的路由器。

上图中，每台路由器有 3 个接口，每条点对点链路使用一个，一个用于直接将路由器连接到一对主机的广播链路。这里出现了 3 个子网 223.1.1.0/24、223.1.2.0/24 和 223.1.3.0/24 。

注意：

在本例中还有其他 3 个子网：一个子网是 223.1.9.0/24，用于连接路由器 R1 与 R2 的接口；另外一个子网是 223.1.8.0/24，用于连接路由器 R2 与 R3 的接口；第三个子网是 223.1.7.0/24，用于连接路由器 R3 与R1 的接口。

对于一个路由器和主机的通用互联系统，我们能够使用下列有效方法定义系统中的子网：

为了确定子网，分开主机和路由器的每个接口，产生几个隔离的网络岛，使用接口端接这些隔离的网络的端点。这些隔离的网络中的每一个都叫作一个子网（ subnet）。

从上述可以看出，一个具有多个以太网段和点对点链路的组织（如一个公司或学术机构）将具有多个子网，在给定子网上的所有设备都具有相同的子网地址。原则上，不同的子网能够具有完全不同的子网地址。然而，在实战中，它们的子网地址经常有许多共同之处。

为了理解其中的道理，我们来关注在全球因特网中是如何处理编址的。因特网的地址分配策略被称为 无类别域间路由选择（Classless Interdomain Routing，CIDR）。CIDR 将子网寻址的概念一般化了。

当使用子网寻址时，32 比特的 IP 地址被划分为两部分，并且也具有点分十进制数形式 a.b.c.d/x，其中 x 指示了地址的第一部分中的比特数。形式为 a.b.c.d/x 的地址的 x 最高比特构成了 IP 地址的网络部分，并且经常被称为该地址的 前缀（prefix）（或网络前缀）。

一个组织通常被分配一块连续的地址，即具有相同前缀的一段地址。在这种情况下，该组织内部的设备的 IP 地址将共享共同的前缀。这就是说，当该组织外部的一台路由器转发一个数据报，且该数据报的目的地址位于该组织的内部时，仅需要考虑该地址的前面 x 比特。这相当大地减少了在这些路由器中转发表的长度，因为形式为 a.b.c.d/x 的单一表项足以将数据报转发到该组织内的任何目的地。

上图为一个 ISP 将 8 个组织连接到因特网的例子，它也很好地说明了仔细分配 CIDR 化的地址有利于路由选择的道理。

假设该 ISP（我们称之为 Fly-By-Night-ISP）向外界通告，它应该发送所有地址的前 20 比特与 200.23.16.0/20 相符的数据报。外界的其他部分不需要知道在地址块 200.23.16.0/20 内实际上还存在 8 个其他组织，其中每个组织有自己的子网。

这种使用单个网络前缀通告多个网络的能力通常称为 地址聚合（address aggregation），也称为 路由聚合（route aggregation）或路由摘要（route summarization）。

当地址按块分给 ISP，然后又由 ISP 分给客户组织时，地址聚合工作极为有效。

当一台主机发出一个目的地址为 255.255.255.255（IP 广播地址）的数据报时，该报文会交付给同一个网络中的所有主机。路由器也会有选择地向邻近的子网转发该报文（虽然它们通常不这样做）。

3. DHCP（动态主机配置协议）

某组织一且获得了一块地址，它就可为本组织内的主机与路由器接口逐个分配 IP 地址。系统管理员通常手工配置路由器中的 IP 地址（常常在远程通过网络管理工具进行配置）。主机地址也能手动配置，但是这项任务目前更多的是使用 动态主机配置协议（Dy-namic Host Configuration, DHCP） 来完成。

DHCP 允许主机自动获取（被分配）一个 IP 地址。网络管理员能够配置 DHCP，以使某给定主机每次与网络连接时能得到一个相同的 IP 地址，或者某主机将被分配一个 临时的 IP 地址（temporary IP address），每次与网络连接时该地址也许是不同的。

除了主机 IP 地址分配外，DHCP 还允许一台主机得知其他信息，例如它的子网掩码、它的第一跳路由器地址（常称为默认网关）与它的本地 DNS 服务器的地址。

由于 DHCP 具有将主机连接进一个网络的网络相关方面的自动能力，故它又常被称为 即插即用协议（plug-and-play protocol）或零配置（zerocont）协议。

DHCP 还广泛地用于住宅因特网接入网、企业网与无线局域网中，其中的主机频繁地加入和离开网络。例如，考虑一个学生带着便携机从宿舍到图书馆再到教室。很有可能在每个位置这个学生将连接到一个新的子网，因此在每个位置都需要一个新的 IP 地址。DHCP 是适合这种情形的理想方法，因为有许多用户来来往往，并且仅在有限的时间内需要地址。

DHCP 是一个 客户-服务器协议。客户通常是新到达的主机，它要获得包括自身使用的 IP 地址在内的网络配置信息。在最简单场合下，每个子网将具有一台 DHCP 服务器。如果在某子网中没有服务器，则需要一个 DHCP 中继代理（通常是一台路由器），这个代理知道用于该网络的 DHCP 服务器的地址。

下图显示了连接到子网 223.1.2/24 的一台 DHCP 服务器，具有一台提供中继代理服务的路由器，它为连接到子网 223.1.1/24 和 223.1.3/24 的到达客户提供 DHCP 服务。

对于一台新到达的主机而言，针对上图所示的网络设置，DHCP 协议是一个 4 个步骤的过程：

（1）DHCP 服务器发现

一台新到达的主机的首要任务是发现一个要与其交互的 DHCP服务器。这可通过使用 DHCP 发现报文（DHCP discover message）来完成，客户在UDP 分组中向 端口 67 发送该发现报文。该 UDP 分组封装在一个 IP 数据报中。

主机这个数据报应发给谁时。在这种情况下，DHCP 客户生成包含 DHCP 发现报文的 IP 数据报，其中使用广播目的地址 255.255.255.255 并且使用 “本主机” 源 IP 地址 0.0.0.0。DHCP 客户将该 IP 数据报传递给链路层，链路层然后将该帧广播到所有与该子网连接的节点。

（2）DHCP 服务器提供

DHCP 服务器收到一个 DHCP 发现报文时，用 DHCP 提供报文（DHCP offer message）向客户做出响应，该报文向该子网的所有节点广播，仍然使用 IP 广播地址 255.255.255.255。因为 在子网中可能存在几个 DHCP 服务器，该客户也许会发现它处于能在几个提供者之间进行选择的优越位置。

每台服务器提供的报文包含有收到的发现报文的事务 ID、向客户推荐的 IP 地址、网络掩码以及 IP 地址租用期（address lease time），即 IP 地址有效的时间量。服务器租用期通常设置为几小时或几天。

（3）DHCP 请求

新到达的客户从一个或多个服务器提供中选择一个，并向选中的服务器提供用 DHCP 请求报文（DHCP request message）进行响应，回显配置的参数。

（4）DHCP ACK

服务器用 DHCP ACK 报文（DHCP ACK mesage）对 DHCP 请求报文进行响应，证实所要求的参数。

一旦客户收到 DHCP ACK 后，交互便完成了，并且该客户能够在租用期内使用 DHCP 分配的 IP 地址。因为客户可能在该租用期超时后还希望使用这个地址，所以 DHCP 还提供了一种机制以允许客户更新它对一个 IP 地址的租用。

从移动性角度看，DHCP 确实有非常严重的缺陷。因为每当节点连到一个新子网，要从 DHCP 得到一个新的 IP 地址，当一个移动节点在子网之间移动时，就不能维持与远程应用之间的 TCP 连接。

NAT%EF%BC%88%E7%BD%91%E7%BB%9C%E5%9C%B0%E5%9D%80%E8%BD%AC%E6%8D%A2%EF%BC%89">4. NAT（网络地址转换）

每个 IP 使能的设备都需要一个 IP 地址。随着所谓小型办公室、家庭办公室（Small Office, HomeOffice, SOHO）子网的大量出现，看起来意味着每当一个 SOHO 想安装一个 LAN 以互联多台机器时，需要 ISP 分配一组地址以供该 SOHO 的所有 IP 设备（包括电话、平板电脑、游戏设备、IP TV、打印机等）使用。如果该子网变大了，则需要分配一块较大的地址。但如果 ISP 已经为 SOHO 网络的当前地址范围分配过一块连续地址该怎么办呢？并且，家庭主人一般要（或应该需要）首先知道的管理 IP 地址的典型方法有哪些呢？幸运的是，有一种简单的方法越来越广泛地用在这些场合：网络地址转换（Network Address Transla-tion, NAT）。

上图显示了一台 NAT 使能路由器的运行情况。

位于家中的 NAT 使能的路由器有一个接口，该接口是上图中右侧所示家庭网络的一部分。在家庭网络内的编址就像我们在上面看到的完全一样，其中的所有 4 个接口都具有相同的网络地址 10.0.0/24。地址空闻 10.0.0.0/8 是在 [RFC 1918] 中保留的三部分 IP 地址空间之一，这些地址用于上图中的 家庭网络等专用网络（private network）或 具有专用地址的地域（ realm with privateaddress）。具有专用地址的地域是指 其地址仅对该网络中的设备有意义的网络。

考虑有数十万家庭网络这样的事实，许多使用了相同的地址空间 10.0.0.0/24。

在一个给定家庭网络中的设备能够使用 10.0.0.0/24 编址彼此发送分组。然而，转发到家庭网络之外进入更大的全球因特网的分组显然不能使用这些地址（或作为源地址，或作为目的地址），因为有数十万的网络使用着这块地址。这就是说，10.0.0.0/24 地址仅在给定的网络中才有意义。

但这当向或从全球因特网发送或接收分组时如何处理编址问题呢，地址在何处才必须是唯一的呢？

答案在于理解 NAT。

NAT 使能路由器对于外部世界来说甚至不像一台路由器。相反 NAT 路由器对外界的行为就如同一个具有单一 IP 地址的单一设备。

在上图中，所有离开家庭路由器流向更大因特网的报文都拥有一个源 IP 地址 138.76.29.7，且所有进入家庭的报文都拥有同一个目的 IP 地址 138.76.29.7。

从本质上讲，NAT 使能路由器对外界隐藏了家庭网络的细节。

另外，家庭网络计算机是从哪儿得到其地址，路由器又是从哪儿得到它的单一 IP 地址的。在通常的情况下，答案是相同的，即 DHCP。路由器从 ISP 的 DHCP 服务器得到它的地址，并且路由器运行一个 DHCP 服务器，为位于 NAT-DHCP 路由器控制的家庭网络地址空间中的计算机提供地址。

如果从广域网到达 NAT 路由器的所有数据报都有相同的目的 IP 地址（特别是对 NAT 路由器广域网一侧的接口），那么该路由器怎样知道它应将某个分组转发给哪个内部主机呢？技巧就是使用 NAT 路由器上的一张 NAT 转换表（NAT translation table），并且在表项中包含了端口号及其 IP 地址。

假设一个用户坐在家庭网络主机 10.0.0.1 后，请求 IP 地址为 128.119.40.186 的某台 Web 服务器（端口 80）上的一个 Web 页面。主机 10.0.0.1 为其指派了（任意）源端口号 3345 并将该数据报发送到 LAN 中。

NAT 路由器收到该数据报，为该数据报生成一个新的源端口号 5001，将源 IP 替代为其广域网一侧接口的 IP 地址 138.76.29.7，且将源端口 3345 更换为新端口 5001。

当生成一个新的源端口号时，NAT 路由器可选择任意一个当前未在 NAT 转换表中的源端口号。（注意到因为端口号字段为 16 比特长，NAT 协议可支持超过 60000 个并行使用路由器广域网一侧单个 IP 地址的连接！）路由器中的 NAT 也在它的 NAT 转换表中增加一表项。

Web 服务器并不知道刚到达的包含 HTTP 请求的数据报已被 NAT 路由器进行了改装，它会发回一个响应报文，其目的地址是 NAT 路由器的 IP 地址，其目的端口是 5001。当该报文到达 NAT 路由器时，路由器使用目的 IP 地址与目的端口号从 NAT 转换表中检索出家庭网络浏览器使用的适当 IP 地址（10.0.0.1）和目的端口号（3345）。于是，路由器重写该数据报的目的 IP 地址与目的端口号，并向家庭网络转发该数据报。

5. 从IPv4 到IPV6 的迁移

虽然新型 IPv6 使能系统可做成向后兼容，即能发送、路由和接收 IPv4 数据报，但已部署的具有 IPv4 能力的系统却不能够处理 IPv6 数据报。可以采用以下几种方法。

一种可选的方法是 宣布一个标志日，即指定某个日期和时间，届时因特网的所有机器都关机并从 IPv4 升级到 IPv6。但一个涉及数十亿台机器的标志日现在更是不可想象的。

在实践中已经得到广泛采用的 IPv4 到 IPv6 迁移的方法包括 建隧道（tunneling）。建隧道依据的基本思想如下：

假定两个 IPv6 节点要使用 IPv6 数据报进行交互，但它们是经由中间 IPv4 路由器互联的。我们 将两台 IPv6 路由器之间的中间 IPv4 路由器的集合称为一个隧道（tunnel）。

借助于隧道，在隧道发送端的 IPv6 节点（如B）可 将整个 IPv6 数据报放到一个 IPv4 数据报的数据（有效载荷）字段中。于是，该 IPv4 数据报的地址设为指向隧道接收端的 IPv6 节点（在此例中为 E），再发送给隧道中的第一个节点（在此例中为 C）。隧道中的中间 IPv4 路由器在它们之间为该数据报提供路由，就像对待其他数据报一样，完全不知道该 IPv4 数据报自身就含有一个完整的 IPv6 数据报。

隧道接收端的 IPv6 节点最终收到该 IPv4 数据报（它是该 IPv4 数据报的目的地），并确定该 IPv4 数据报含有一个 IPv6 数据报（通过观察在 IPv4 数据报中的协议号字段是 41，指示该 IPv4 有效载荷是 IPv6 数据报），从中取出 IPv6 数据报，然后再为该 IPv6 数据报提供路由，就好像它是从一个直接相连的 IPv6 邻居那里接收到该 IPv6 数据报一样。

6. 通用转发和 SDN

（1）概述

第二层交换机和第三层路由器等中间盒剧增，而且每种都有自己特殊的硬件、软件和管理界面，无疑给许多网络操作员带来了十分头疼的大麻烦。然而，近期软件定义网络的进展已经预示并且正在提出一种统一的方法，以一种现代、简洁和综合方式，提供多种网络层功能以及某些链路层功能。

基于目的地转发的特征可以被总结为两个步骤：查找目的 IP 地址（“匹配”），然后将分组发送到有特定输出端口的交换结构（“动作”）。

现在考虑一种更有意义的通用 “匹配加动作” 范式，其中能够对协议栈的多个首部字段进行“匹配”，这些首部字段是与不同层次的不同协议相关联的。

“动作” 能够包括：将分组转发到一个或多个输出端口（就像在基于目的地转发中一样），跨越多个通向服务的离开接口进行负载均衡分组（就像在负载均衡中一样），重写首部值（就像在 NAT 中一样），有意识地阻挡/丢弃某个分组（就像在防火墙中一样），为进一步处理和动作而向某个特定的服务器发送一个分组（就像在 DPI 一样），等等。

在通用转发中，一张匹配加动作表将基于目的地的转发表一般化了。因为能够使用网络层和/或链路层源和目的地址做出转发决定，所以显示在下图中的转发设备更为准确地描述为“分组交换机〞而不是第三层 “路由器” 或第二层 “交换机〞。

分组交换机，这是在 SDN 文献中被广泛采用的术语。下图显示了位于每台分组交换机中的一张匹配加动作表，该表由远程控制器计算、安装和更新。我们注意到虽然在各台分组交换机中的控制组件可以相互作用，但实践中通用匹配加动作能力是通过计算、安装和更新这些表的远程控制器实现的。

OpenFlow 是一个得到高度认可和成功的标准，它已经成为匹配加动作转发抽象、控制器以及更为一般的 SDN 革命等概念的先驱。我们将主要考虑 OpenFlow 1.0，该标准以特别清晰和简明的方式引入了关键的 SDN 抽象和功能。OpenFlow 的后继版本根据实现和使用获得的经验引人了其他能力。

（2）匹配

下图显示了 11 个分组首部字段和入端口 ID，该 ID 能被 OpenFlow 1.0 中的匹配加动作规则所匹配。到达一台分组交换机的一个链路层（第二层）帧将包含一个网络层（第三层）数据报作为其有效载荷，该载荷通常依次将包含一个运输层（第四层）报文段。

第一个观察是，OpenFlow 的匹配抽象允许对来自三个层次的协议首部所选择的字段进行匹配（它违反了分层原则）。显示在下图中的源和目的 MAC 地址是与帧的发送和接收接口相关联的链路层地址；通过基于以太网地址而不是 IP 地址进行转发，我们看到 OpenFlow 使能的设备能够等价于路由器（第三层设备）转发数据报以及交换机（第二层设备）转发帧。

以太网类型字段对应于较高层协议（例如 IP），利用该字段分解该帧的载荷，并且 VLAN 字段与所谓虚拟局域网相关联。

入端口是指分组交换机上接收分组的输入端口。运输层源和目的端口号字段也能匹配。流表项也可以有通配符。

例如，在一个流表中 IP 地址 128.119.*.* 将匹配其地址的前 16 比特为 128.119 的任何数据报所对应的地址字段。每个流表项也具有相应的优先权。如果一个分组匹配多个流表项，选定的匹配和对应的动作将是其中有最高优先权的那个。

并非一个 IP 首部中的所有字段都能被匹配。例如 OpenFlow 并不允许基于 TTL 字段或数据报长度字段的匹配。为什么有些字段允许匹配，而有些字段不允许呢？毫无疑问，与功能和复杂性有关。选择一种抽象的 “艺术” 是提供足够的功能来完成某种任务（在这种情况下是实现、配置和管理宽泛的网络层功能，以前这些一直是通过各种各样的网络层设备来实现的），不必用如此详尽和一般性的 “超负荷” 抽象，这种抽象已经变得臃肿和不可用。

（3）动作

每个流表项都有零个或多个动作列表，这些动作决定了应用于与流表项匹配的分组的处理。如果有多个动作，它们以在表中规定的次序执行。其中最为重要的动作为：

① 转发

一个人分组可以转发到一个特定的物理输出端口，广播到所有端口（分组到达的端口除外），或通过所选的端口集合进行多播。该分组可能被封裝并发送到用于该设备的远程控制器。该控制器则可能（或可能不）对该分组采取某些动作，包括安装新的流表项，以及可能将该分组返回给该设备以在更新的流表规则集合下进行转发。

② 丢弃

没有动作的流表项表明某个匹配的分组应当被丢弃。

③ 修改宇段

在分组被转发到所选的输出端口之前，分组首部 10 个字段（上图中显示的除 IP 协议字段外的所有第二、三、四层的字段）中的值可以重写。