面试：TCP、UDP如何解决丢包问题

文章目录

一、TCP丢包原因、解决办法
- 1.1 TCP为什么会丢包
- 1.2 TCP传输协议如何解决丢包问题
- 1.3 其他丢包情况（拓展）
- 1.4 补充
- - 1.4.1 TCP端口号
  - 1.4.2 多个TCP请求的逻辑
  - 1.4.3 处理大量TCP连接请求的方法
  - 1.4.4 总结
二、UDP丢包
- 2.1 UDP协议
- - 2.1.1 UDP简介
  - 2.1.2 UDP协议特点
  - 2.1.3 基于UDP实现的用户层协议
  - 2.1.4 TCP与UDP的区别
- 2.2 UDP丢包原因
- 2.3 如何解决UDP丢包问题

一、TCP丢包原因、解决办法

TCP是基于不可靠的网络实现可靠的传输，肯定也会存在掉包的情况，如果通信中发现缺少数据或者丢包，那么，最大的可能在于程序发送的过程或者接收的过程出现问题。

例如服务端要给客户端发送大量数据，Send频率很高，那么就很有可能在Send环节出现错误（1.程序处理逻辑错误，2.多线程同步问题，3.缓冲区溢出等），如果没有对Send发送失败做处理，那么客户端收到的数据比理论要收到的数据少，就会造成丢数据，丢包现象。

1.1 TCP为什么会丢包

TCP协议（Transimission Control Protocol）是以一种面向连接的、可靠的、基于字节流的传输层通信协议。

TCP是基于不可靠的网路实现可靠传输，肯定会存在丢包问题。

如果在通信过程中，发现缺少数据或者丢包，那边么最大的可能性是程序发送过程或者接受过程中出现问题

例如：我有2台服务器，A和B服务器。A服务器发送数据给B服务器频率过高时，B服务器来不及处理，造成数据丢包。(原因可能是程序逻辑问题，多线程同步问题，缓冲区溢出问题)。

如果A服务器不对发送频率进行控制，或者数据进行重发的话，那么B服务器收到数据就会少。就会造成丢失数据

1.2 TCP传输协议如何解决丢包问题

为了保障传输可靠性，TCP协议本身有如下规定：

基于数据块传输/数据分片：应用数据被分割成TCP认为最适合发送的数据块，再传输给网络层，数据块被称为报文段或段。
对失序数据包重新排序以及去重：TCP为了保证不发生丢包，就给每个包一个序列号，有了序列号能够将接收到的数据根据序列号排序，并且去掉亚复序列号的数据就可以实现数据包去重。
校验和：TCP将保持它首部和数据的检验和。这是一个端到端的检验和，目的是检测数据在传输过程中的任何变化。如果收到段的检验和有差错，TCP 将丢弃这个报文段和不确认收到此报文段。
重传机制：在数据包丢失或延迟的情况下，重新发送数据包，直到收到对方的确认应答（ACK）。TCP重传机制主要有：基于计时器的重传（也就是超时重传）、快速重传（基于接收端的反馈信息来引发重传）、SACK（在快速重传的基础上，返回最近收到的报文段的序列号范围，这样客户端就知道，哪些数据包已经到达服务器了）、D-SACK（重复SACK，在SACK的基础上，额外携带信息，告知发送方有哪些数据包自己重复接收了）。关于重传机制的详细介绍，可以查看详解TCP超时与重传机制这篇文章。
流量控制（滑动窗口）：TCP连接的每一方都有固定大小的缓冲空间，TCP的接收端只允许发送端发送接收端缓冲区能接纳的数据。当接收方来不及处理发送方的数据，能提示发送方降低发送的速率，防止包丢失。TCP使用的流量控制协议是可变大小的滑动窗口协议（TCP利用滑动窗口实现流量控制）。
拥塞控制（慢开始、拥塞避免、快重传和快恢复）：当网络拥塞时，减少数据的发送。TCP在发送数据的时候，需要考虑两个因素：一是接收方的接收能力，二是网络的拥塞程度。接收方的接收能力由滑动窗口表示，表示接收方还有多少缓冲区可以用来接收数据。网络的拥塞程度由拥塞窗口表示，它是发送方根据网络状况自己维护的一个值，表示发送方认为可以在网络中传输的数据量。发送方发送数据的大小是滑动窗口和拥塞窗口的最小值，这样可以保证发送方既不会超过接收方的接收能力，也不会造成网络的过度拥塞。
自主重传ARQ（停止等待ARQ、连续ARQ）：接收端接收到分片数据时，根据分片数据序号向发送端发送一个确认，超时重传

关于TCP如何保障传输可靠性，可查阅计算机网络常见面试题（一）：TCP/IP五层模型、TCP三次握手、四次挥手，TCP传输可靠性保障、ARQ协议

1.3 其他丢包情况（拓展）

按理说，TCP协议经过处理、已能保障传输可靠性，但是IP协议是不可靠、无连接的，以下情况仍有可能会丢包：

服务端要给客户端发送大量数据时，Send频率很高，Send环节可能出现错误（程序处理逻辑错误、多线程同步问题、缓冲区溢出等）
有大量TCP连接请求
网络较差（譬如握手过程中丢包）：TCP 本身具有重传机制，但在极端情况下，丢包仍然可能发生

对应解决方案如下：

1、服务端要给客户端发送大量数据时，Send频率很高，Send环节可能出现错误（程序处理逻辑错误、多线程同步问题、缓冲区溢出等）

对Send失败做处理

2、有大量TCP连接请求

优化服务器配置、使用高效的 I/O 处理机制（多线程、多进程、事件驱动模型、异步IO）、负载均衡和合理管理连接，提高服务器的并发处理能力和稳定性
具体见本文1.4.3小节

3、网络较差（譬如握手过程中丢包）：TCP 本身具有重传机制，但在极端情况下，丢包仍然可能发生

（1）调整TCP参数

增加重传次数和超时时间：可以通过调整内核参数来增加 TCP 的重传次数和超时时间，以提高在网络不稳定情况下的可靠性

# 增加重传次数
sudo sysctl -w net.ipv4.tcp_retries2=15# 增加超时时间
sudo sysctl -w net.ipv4.tcp_fin_timeout=30

调整拥塞控制算法：选择合适的拥塞控制算法可以改善网络性能。Linux 提供了多种拥塞控制算法，如 reno、cubic、bbr 等

# 查看当前使用的拥塞控制算法
sysctl net.ipv4.tcp_congestion_control# 设置为 BBR（ Bottleneck Bandwidth and RTT）
sudo sysctl -w net.ipv4.tcp_congestion_control=bbr

（2）使用TCP快速重传和恢复

快速重传：快速重传允许发送方在接收到三个重复的 ACK 后立即重传丢失的段，而不是等待重传计时器到期

# 开启快速重传
sudo sysctl -w net.ipv4.tcp_frto=2

快速恢复：快速恢复是在快速重传之后的一种机制，旨在更快地恢复连接

（3）使用TCP快速打开

TCP 快速打开（TCP Fast Open，简称 TFO）是一种优化 TCP 连接建立过程的技术。传统的 TCP 连接建立需要三次握手（SYN, SYN-ACK, ACK），而在某些情况下，这三次握手会导致额外的延迟。TCP 快速打开允许客户端在第一次 SYN 包中携带数据，从而减少了一次往返时间（RTT），提高了连接建立的速度。

TCP 快速打开的工作原理

客户端发送 SYN 包：客户端在发送 SYN 包时，不仅包含 SYN 标志，还携带了数据。
服务器响应 SYN-ACK 包：服务器在响应 SYN-ACK 包时，也包含对客户端数据的确认。
客户端发送 ACK 包：客户端发送 ACK 包，同时可以继续发送更多数据。
数据传输：连接建立完成，双方可以立即开始数据传输。

TCP 快速打开（TCP Fast Open）可以减少建立连接的时间，从而减少丢包的可能性。

# 开启 TCP 快速打开
sudo sysctl -w net.ipv4.tcp_fastopen=3

参数3的含义是：客户端和服务器都支持 TFO、客户端可以发送 TFO 请求、服务器可以接受 TFO 请求

（4）优化网络设备和驱动、调整网络设备参数

可以通过调整网络设备的参数来优化性能，例如增加接收缓冲区大小。

# 增加接收缓冲区大小
sudo ethtool -G eth0 rx 4096

（5）使用网络监控工具

使用网络监控工具（如 Wireshark、tcpdump）来监控和分析网络流量，及时发现和解决问题。

# 使用 tcpdump 抓包
sudo tcpdump -i eth0 -w capture.pcap

1.4 补充

TCP（传输控制协议）是一种面向连接的、可靠的、基于字节流的传输层通信协议。TCP 端口是用于标识网络应用的逻辑地址。每个 TCP 连接由源 IP 地址、源端口号、目标 IP 地址和目标端口号唯一标识。

端口号：是一个 16 位的数字，范围从 0 到 65535。其中，0-1023 是众所周知的系统端口，通常由系统进程使用；1024-49151 是注册端口，可以被用户进程使用；49152-65535 是动态或私有端口，通常由操作系统自动分配。

1.4.1 TCP端口号

TCP（传输控制协议）端口号是一个 16 位的数字，用于标识网络应用程序的逻辑地址。每个 TCP 连接由四个部分唯一标识：

源 IP 地址
源端口号
目标 IP 地址
目标端口号

端口号的范围是从 0 到 65535，其中：

0-1023：熟知端口，通常由系统进程使用。
1024-49151：注册端口，可以被用户进程使用。
49152-65535：动态或私有端口，通常由操作系统自动分配。

1.4.2 多个TCP请求的逻辑

当有多个 TCP 请求时，这些请求并不一定都使用同一个端口。实际上，每个连接都有唯一的四元组（源 IP 地址、源端口号、目标 IP 地址、目标端口号）来区分。

1）服务器端口

服务器通常监听一个固定的端口，例如 HTTP 服务通常监听 80 端口，HTTPS 服务通常监听 443 端口。当客户端发起连接请求时，服务器的监听端口会接受连接请求，并为每个连接分配一个新的端口。

2）客户端端口

客户端发起连接时，操作系统会为每个连接分配一个临时端口（通常是动态端口，范围在 49152-65535 之间）。这个临时端口在连接期间是唯一的。

3）示例说明

假设有一个 Web 服务器监听 80 端口，两个客户端分别从不同的 IP 地址发起连接：

客户端 A：IP 地址 192.168.1.1，操作系统为其分配临时端口 50000
客户端 B：IP 地址 192.168.1.2，操作系统为其分配临时端口 50001

服务器接收到这两个连接请求后，会为每个连接分配一个新的端口：

连接 1：(192.168.1.1:50000, 服务器 IP:80)
连接 2：(192.168.1.2:50001, 服务器 IP:80)

尽管服务器监听的是同一个端口（80），但由于每个连接的四元组不同，服务器可以区分这些连接并同时处理它们。

1.4.3 处理大量TCP连接请求的方法

当有大量 TCP 连接请求时，服务器需要采取一些措施来有效地管理和处理这些连接，以保证系统的性能和稳定性。以下是一些常见的处理方法：

1. 使用高性能服务器

多核处理器：使用多核处理器可以提高服务器的并发处理能力。
高内存：增加服务器的内存容量，以支持更多的连接和更大的缓存。

2. 优化网络配置

调整内核参数：优化 Linux 内核参数，如 net.core.somaxconn（最大监听队列长度）、net.ipv4.tcp_max_syn_backlog（SYN 队列长度）、net.ipv4.tcp_fin_timeout（FIN 超时时间）等。
使用 TCP 快速打开：启用 TCP 快速打开（TCP Fast Open）可以减少建立连接的时间。

3. 使用连接池

连接复用：使用连接池技术，复用已建立的连接，减少连接建立和断开的开销。
连接池管理：合理管理连接池的大小，避免过多的空闲连接占用资源。

4. 服务器端优化

多线程模型：使用多线程模型，每个线程处理一部分连接。
多进程模型：每个连接由一个独立的进程处理。这种方法可以利用多核处理器的优势，但进程间的通信和资源管理较为复杂。
事件驱动模型：使用事件驱动模型（如 epoll、kqueue），高效处理大量的 I/O 事件。这种方法可以高效地处理大量连接，适用于高并发场景
异步 I/O框架：使用异步 I/O 模型，如 Node.js、Python 的 asyncio，可以在单个线程中处理多个连接，提高并发处理能力。

5. 负载均衡

反向代理：使用反向代理服务器（如 Nginx、HAProxy）将请求分发到多个后端服务器，分散负载。
集群：构建服务器集群，通过负载均衡算法将请求分发到不同的节点。

6. 限制连接速率

限流：使用限流算法（如令牌桶、漏桶）限制客户端的连接速率，防止突发流量冲击。
连接超时：设置合理的连接超时时间，及时关闭不活跃的连接。

7. 优化应用程序

减少响应时间：优化应用程序的逻辑，减少每个请求的处理时间。
缓存：使用缓存机制，减少对后端数据库的访问频率。
异步处理：将耗时的操作异步处理，提高响应速度。

1.4.4 总结

TCP 端口号：用于标识网络应用程序的逻辑地址，每个连接由四元组（源 IP 地址、源端口号、目标 IP 地址、目标端口号）唯一标识。
多个 TCP 请求：服务器监听一个固定端口，但每个连接都会分配一个唯一的四元组，因此可以同时处理多个连接。
处理大量 TCP 连接请求：优化服务器配置、使用高效的 I/O 处理机制（多线程、多进程、事件驱动模型、异步IO）、负载均衡和合理管理连接，提高服务器的并发处理能力和稳定性
其他丢包情况
- 服务端要给客户端发送大量数据时，Send频率很高，Send环节可能出现错误（程序处理逻辑错误、多线程同步问题、缓冲区溢出等） ——对Send失败做处理
- 有大量TCP连接请求 ——优化服务器配置、使用高效的 I/O 处理机制（多线程、多进程、事件驱动模型、异步IO）、负载均衡和合理管理连接，提高服务器的并发处理能力和稳定性
- 网络较差（譬如握手过程中丢包）：TCP 本身具有重传机制，但在极端情况下，丢包仍然可能发生 ——调整TCP参数、使用TCP快速重传和恢复、使用TCP快速打开、优化网络设备和驱动、调整网络设备参数、使用网络监控工具

二、UDP丢包

2.1 UDP协议

2.1.1 UDP简介

UDP（User Datagram Protocol）是一种无连接的传输层协议，它提供了一种简单的、不可靠的数据传输服务。
UDP 提供了不面向连接的通信，且不对传送的数据报进行可靠的保证，适用于一次传送少量的数据，不适用于传输大量的数据。
UDP属于网络协议栈中的传输层协议，直接负责数据的传输和接收

2.1.2 UDP协议特点

无连接：两台主机在使用UDP进行数据传输时，不需要建立连接，只需知道对端的IP和端口号即可把数据发送过去。
不可靠：UDP协议没有确认重传机制，如果因为网络故障导致报文无法发到对方，或者对方收到了报文，但是传输过程中乱序了，对方校验失败后把乱序的包丢了，UDP协议层也不会给应用层任何错误反馈信息。（在网络中，“不可靠”是个中性词，因为可靠就意味着要付出更多的代价去维护可靠，实现起来会复杂很多；而“不可靠”的话，实现起来会更简单）
面向数据报：UDP传输数据时，是以数据报文为单位一个个地发出去，然后一个个地接收的，这导致上面应用层无法灵活控制数据数据的读写次数和数量。

在这里插入图片描述

2.1.3 基于UDP实现的用户层协议

NFS：网络文件系统
TFTP：简单文件传输协议
DHCP：动态主机配置协议
BOOTP：启动协议(用于无盘设备启动)
DNS：域名解析协议

2.1.4 TCP与UDP的区别

TCP	UDP
面向连接	无连接
提供可靠服务	不保证可靠交互
有状态	无状态
面向字节流	面向报文
传输效率较慢	传输效率较快
有拥塞控制	没有拥塞控制
每一条TCP连接只能是stron	支持一对一、一对多、多对一、多对多
首部开销20字节	首部开销8字节

2.2 UDP丢包原因

1、接收端处理时间过长导致丢包：

调用recv方法接收端收到数据后，处理数据花了一些时间，处理完后再次调用recv方法，在这二次调用间隔里,发过来的包可能丢失。对于这种情况可以修改接收端，将包接收后存入一个缓冲区，然后迅速返回继续recv。

2、发送的包巨大丢包：

虽然send方法会帮你做大包切割成小包发送的事情，但包太大也不行。例如超过50K的一个udp包，不切割直接通过send方法发送也会导致这个包丢失。这种情况需要切割成小包再逐个send。

3、发送的包较大，超过接受者缓存导致丢包：

包超过mtu size数倍，几个大的udp包可能会超过接收者的缓冲，导致丢包。这种情况可以设置socket接收缓冲。以前遇到过这种问题，我把接收缓冲设置成64K就解决了。

4、发送的包频率太快：

虽然每个包的大小都小于mtu size 但是频率太快，例如40多个mut size的包连续发送中间不sleep，也有可能导致丢包。这种情况也有时可以通过设置socket接收缓冲解决，但有时解决不了。所以在发送频率过快的时候还是考虑sleep一下吧。

5、局域网内不丢包，公网上丢包：

这个问题我也是通过切割小包并sleep发送解决的。如果流量太大，这个办法也不灵了。总之udp丢包总是会有的，如果出现了用我的方法解决不了，还有这个几个方法：要么减小流量，要么换tcp协议传输，要么做丢包重传的工作。

2.3 如何解决UDP丢包问题

1.发送频率过高导致丢包

很多人会不理解发送速度过快为什么会产生丢包，原因就是UDP的SendTo不会造成线程阻塞，也就是说，UDP的SentTo不会像TCP中的SendTo那样，直到数据完全发送才会return回调用函数，它不保证当执行下一条语句时数据是否被发送（SendTo方法是异步的）。这样，如果要发送的数据过多或者过大，那么在缓冲区满的那个瞬间要发送的报文就很有可能被丢失。至于对“过快”的解释，作者这样说：“A few packets a second are not an issue; hundreds or thousands may be an issue.”（一秒钟几个数据包不算什么，但是一秒钟成百上千的数据包就不好办了）。

要解决接收方丢包的问题很简单，首先要保证程序执行后马上开始监听（如果数据包不确定什么时候发过来的话），其次，要在收到一个数据包后最短的时间内重新回到监听状态，其间要尽量避免复杂的操作（比较好的解决办法是使用多线程回调机制）。

2.报文过大丢包

至于报文过大的问题，可以通过控制报文大小来解决，使得每个报文的长度小于MTU。以太网的MTU通常是1500 bytes，其他一些诸如拨号连接的网络MTU值为1280 bytes，如果使用speaking这样很难得到MTU的网络，那么最好将报文长度控制在1280 bytes以下。

3.发送方丢包

发送方丢包：内部缓冲区（internal buffers）已满，并且发送速度过快（即发送两个报文之间的间隔过短）；接收方丢包：Socket未开始监听；虽然UDP的报文长度最大可以达到64 kb，但是当报文过大时，稳定性会大大减弱。这是因为当报文过大时会被分割，使得每个分割块（翻译可能有误差，原文是fragmentation）的长度小于MTU，然后分别发送，并在接收方重新组合（reassemble），但是如果其中一个报文丢失，那么其他已收到的报文都无法返回给程序，也就无法得到完整的数据了。

面试：TCP/UDP如何解决丢包问题？、【网络】UDP协议