CLOSE_WAITTIME_WAIT_0">TCP网络编程:CLOSE_WAIT和TIME_WAIT导致端口耗尽的问题与解决方案
1. 直接上解决方案
CLOSE_WAIT_3">1.1 解决CLOSE_WAIT过多的问题
这个问题很简单, 就是你忘记close
套接字了
CLOSE_WAIT
状态的根源是代码逻辑未正确关闭套接字。
CLOSE_WAIT
表示本端接收到了对端发送的FIN
,但还未调用close
释放套接字资源。
解决方法:
确保你的代码中,在不再需要使用套接字时,正确调用close
,例如:
void handle_client(int client_fd) {// ... 处理客户端请求逻辑close(client_fd); // 释放套接字资源
}
常见错误场景:
- 忘记调用
close
,导致资源泄漏。 - 有长时间阻塞的处理逻辑,没有及时清理套接字。
- recv返回0时, 逻辑没有正确处理
注意:
如果服务端代码是多线程或多进程实现的,确保每个线程或进程都能正确关闭其持有的文件描述符,避免僵尸连接堆积。
TIME_WAIT_29">1.2 解决TIME_WAIT过多的问题
TIME_WAIT
状态是TCP协议中的正常现象,但在某些场景下会导致端口耗尽问题。
以下是两种常见的优化方案:
1.2.1 使用SO_LINGER
强制关闭连接
通过设置SO_LINGER
选项,可以让套接字在关闭时直接跳过TIME_WAIT
状态,立即释放资源:
static void set_linger(int sockfd)
{struct linger sl;sl.l_onoff = 1; // 打开 linger 功能sl.l_linger = 0; // 设置 linger 时间为 0 秒,强制关闭 socketsetsockopt(sockfd, SOL_SOCKET, SO_LINGER, &sl, sizeof(sl));
}
技术细节:
- 设置
sl.l_linger = 0
时,close
调用会发送一个RST
报文,直接终止连接,而不是走正常的四次挥手流程。 - 此选项适合短连接场景,比如高频连接和断开的短周期服务。
优点:
- 快速释放端口资源,减少
TIME_WAIT
积压。
缺点:
- 数据丢失风险: 强制关闭会丢弃未发送完的数据包。
- 对端异常处理: 对端收到
RST
报文可能会触发错误(如ECONNRESET
),需要确保业务逻辑能接受这种异常。
TIME_WAIT_58">1.2.2 使用SO_REUSEADDR
直接使用处于TIME_WAIT
状态的端口
启用SO_REUSEADDR
选项可以允许程序绑定一个处于TIME_WAIT
状态的端口,从而快速重用该端口:
// 限定使用的本地端口范围, 避免把系统所有端口都用完
// 当然也可以不限制, 但是如果端口耗尽, 那些没有使用SO_REUSEADDR的程序就无法新建连接了
// 当然我们使用SO_REUSEADDR还是可以新建连接的
const (bindPortStart = 40000bindPortEnd = 40010
)func dialWithReuseAddr(serverAddr string, id int) error {// 创建一个套接字sock, err := syscall.Socket(syscall.AF_INET, syscall.SOCK_STREAM, syscall.IPPROTO_TCP)if err != nil {return fmt.Errorf("socket creation error: %v", err)}defer syscall.Close(sock)// 设置SO_REUSEADDR选项err = syscall.SetsockoptInt(sock, syscall.SOL_SOCKET, syscall.SO_REUSEADDR, 1)if err != nil {return fmt.Errorf("failed to set SO_REUSEADDR: %v", err)}// 绑定本地端口localPort := bindPortStart + id%(bindPortEnd-bindPortStart+1)localAddr := &syscall.SockaddrInet4{Port: localPort,}copy(localAddr.Addr[:], net.IPv4zero.To4()) // 绑定到0.0.0.0err = syscall.Bind(sock, localAddr)if err != nil {return fmt.Errorf("bind error on port %d: %v", localPort, err)}// 将地址解析为sockaddrraddr, err := net.ResolveTCPAddr("tcp", serverAddr)if err != nil {return fmt.Errorf("resolveTCPAddr error: %v", err)}// 构造远程sockaddrremoteAddr := &syscall.SockaddrInet4{}copy(remoteAddr.Addr[:], raddr.IP.To4())remoteAddr.Port = raddr.Port// 连接服务器err = syscall.Connect(sock, remoteAddr)if err != nil {return fmt.Errorf("connect error: %v", err)}fmt.Printf("[%d] Connected to server using local port %d.\n", id, localPort)// 连接后立即关闭以模拟短连接// 关闭后可能进入TIME_WAIT状态return nil
}
技术细节:
- 启用
SO_REUSEADDR
后,即使端口仍处于TIME_WAIT
状态,也允许bind
绑定。 - 对于服务器应用,,在重新启动时尤为有用,可以快速恢复监听服务。
- 对于客户端应用, 在
connect
之前先bind
处于TIME_WAIT
状态的套接字也是可以的- 如果不主动
bind
一个指定的端口, 在connect
时, 操作系统还是会选择一个新的可用端口, 而不是使用已经处于TIME_WAIT
状态的端口
- 如果不主动
优点:
- 快速恢复服务,特别适用于频繁重启的服务器程序。
缺点:
- 并不会真正跳过
TIME_WAIT
状态,连接可能仍受到TCP层延迟的影响, 虽然这种影响非常小。
注意: 两种方法各有优劣。如果不确定如何选择,请继续阅读以下原理部分。
TIME_WAIT__143">2. TIME_WAIT 的作用和产生原因
TIME_WAIT
状态是我们在TCP连接关闭过程中经常会遇到的一种状态。它的存在不是多余的,而是TCP协议设计的一部分,主要用来保证连接的安全性和可靠性。
简单来说TIME_WAIT
不是BUG, 而是设计如此
接下来我们来看看它的作用和它是怎么产生的。
TIME_WAIT__151">2.1 TIME_WAIT 的作用
为什么需要TIME_WAIT
?主要是为了保证网络中的“迟到”数据包不捣乱
- 假设你刚关闭了一个连接,但是网络中还有一些未送达的旧数据包。这时候,如果你立即重用了同样的端口和IP,旧数据包可能会误闯到新的连接里,导致数据错乱。
TIME_WAIT
就是用来解决这个问题的——通过让端口保持一段时间不被复用,确保旧数据包完全过期。 - 一个TCP连接的唯一标识是四元组:
<源IP, 源端口, 目标IP, 目标端口>
。在TIME_WAIT
状态下,系统会禁止重复使用这个四元组,直到它完全过期。这样就能避免旧连接的“鬼魂”干扰新连接,尤其是在网络延迟很大的情况下。
所以,TIME_WAIT
的核心作用就是保护新连接,清理旧数据。
TIME_WAIT__160">2.2 TIME_WAIT 的产生过程
那么,TIME_WAIT
是怎么来的呢?这要从TCP的四次挥手说起,咱们来一步步看:
-
客户端:发
FIN
客户端决定“我这边的数据发完了,不玩了”,于是发送一个FIN
请求。 -
服务端:回
ACK
服务端收到FIN
后表示“好的,我知道了”,返回一个ACK
确认。这个时候,服务端可能还有数据没发完,所以连接还没完全关闭。 -
服务端:发
FIN
服务端完成自己的任务后,也发出FIN
,表示“我这边也没啥事了,可以关了”。 -
客户端:回
ACK
并进入TIME_WAIT
客户端收到服务端的FIN
后,再发一个ACK
确认。至此,连接的关闭流程就算结束了,但客户端不会马上释放端口,而是进入TIME_WAIT
状态,保持一段时间。
上面是客户端先close的情况, 如果服务器先close, 过程也是一样的
TIME_WAIT__181">2.3 TIME_WAIT 的持续时间
TIME_WAIT
状态的持续时间是2倍的MSL(Maximum Segment Lifetime)。
- MSL是一个报文在网络中存活的最大时间,默认值通常是30秒或者60秒。
- 2MSL的设计有两个目的:
- 确保网络中的所有旧数据包(比如未送达的
FIN
或ACK
)完全消失。 - 防止同样的四元组在短时间内被重复使用。
- 确保网络中的所有旧数据包(比如未送达的
举个例子:如果系统默认MSL是60秒,那么TIME_WAIT
状态会持续120秒。这段时间内,端口都不能被复用。
Linux内核选项可以修改这个时间
在/etc/sysctl.conf 加入以下内容, 修改MSL为30秒
net.ipv4.tcp_fin_timeout = 30
2.4 注意事项
3. SO_LINGER
的作用和用法
SO_LINGER
选项用于控制套接字在调用close
后是否立即关闭连接,以及是否等待套接字缓冲区中的剩余数据被发送完成。
3.1 SO_LINGER
的作用
SO_LINGER
通过设置struct linger
结构体的值来决定套接字关闭的行为:
struct linger {int l_onoff; // 是否启用 linger 选项int l_linger; // 延迟关闭时间(秒)
};
-
立刻关闭(发送RST包)
- 设置
sl.l_onoff = 1
且sl.l_linger = 0
时:- 调用
close
后,套接字立即关闭,未发送的数据将被丢弃。 - 内核会向对方发送一个RST(重置)包,跳过正常的TCP四次挥手过程。
- 对方收到RST包后可能直接关闭连接,并终止任何未完成的传输操作。
- 调用
示例代码:
struct linger sl; sl.l_onoff = 1; // 启用 linger sl.l_linger = 0; // 设置为立即关闭 setsockopt(sockfd, SOL_SOCKET, SO_LINGER, &sl, sizeof(sl)); close(sockfd);
- 设置
-
延迟关闭
- 设置
sl.l_onoff = 1
且sl.l_linger > 0
时:
示例代码:
struct linger sl; sl.l_onoff = 1; // 启用 linger sl.l_linger = 5; // 等待 5 秒 setsockopt(sockfd, SOL_SOCKET, SO_LINGER, &sl, sizeof(sl)); close(sockfd);
- 设置
-
默认行为(未设置
SO_LINGER
)- 如果未启用
SO_LINGER
,调用close
时,系统会尝试发送缓冲区中的所有数据。 - 连接将正常进入四次挥手流程,并进入
TIME_WAIT
状态。
- 如果未启用
3.2 SO_LINGER
的优缺点
优点:
- 释放资源:
- 在高并发环境下,通过立即关闭连接快速释放系统资源,避免套接字和端口的长期占用。
- 跳过
TIME_WAIT
:- 通过发送RST包,避免了进入
TIME_WAIT
状态,适合某些短连接、高频请求场景。
- 通过发送RST包,避免了进入
缺点:
- 数据丢失风险:
- 设置
sl.l_onoff = 1
且sl.l_linger = 0
时,未发送的数据将被丢弃,可能导致对方未接收到关键数据。
- 设置
- 可能引发问题:
- 由于跳过了正常的TCP关闭流程,对方可能未正确关闭连接,导致不一致的状态或资源泄露。
TIME_WAIT_271">3.3 SO_LINGER
与TIME_WAIT
的关系
-
立即关闭(RST包)
- 当设置为
sl.l_onoff = 1
且sl.l_linger = 0
时,连接不会进入TIME_WAIT
状态,因为RST包会终止连接。
- 当设置为
-
延迟关闭
3.4 SO_LINGER
的使用场景
-
高并发服务
-
资源敏感型应用
- 在资源有限的嵌入式设备或高负载环境中,
SO_LINGER
可以减少连接占用的时间,提升资源利用率。
- 在资源有限的嵌入式设备或高负载环境中,
-
非关键数据传输
- 对于丢失部分数据影响较小的场景,可以启用
SO_LINGER
的立即关闭功能来优化性能。
- 对于丢失部分数据影响较小的场景,可以启用
4. SO_REUSEADDR
的作用
用于允许程序绑定一个正在处于TIME_WAIT
状态的端口。
通过这一功能
- TCP服务程序可以快速重启,避免因端口被占用而导致的绑定失败。
- TCP客户端程序可以
bind
处于TIME_WAIT
状态的套接字, 然后再connect
4.2 SO_REUSEADDR
的优缺点
优点:
- 快速绑定端口,提升服务程序的可用性。
- 在多播编程中,支持多个进程绑定同一地址。
缺点:
注意事项:
启用SO_REUSEADDR
后,程序仍需谨慎处理绑定逻辑,确保不会影响现有的有效连接。
4.4 顺便说一下SO_REUSEPORT
SO_REUSEPORT
是Linux系统中提供的一种高级端口复用功能,与SO_REUSEADDR
相比,它具有不同的作用和使用场景。
-
作用
- 允许多个程序或线程绑定到同一个端口。
- 内核会自动为这些绑定的套接字实现负载均衡。
- 常用于高并发服务器中实现多核负载均衡。
-
特点
- 是Linux的独有功能(Windows没有提供类似选项)。
- 解决的是端口复用问题,而非
TIME_WAIT
状态的问题。
-
用法
SO_REUSEPORT
的设置方式类似于SO_REUSEADDR
:
int sockfd = socket(AF_INET, SOCK_STREAM, 0);
if (sockfd < 0) {perror("socket");return -1;
}int opt = 1;
// 启用 SO_REUSEPORT
if (setsockopt(sockfd, SOL_SOCKET, SO_REUSEPORT, &opt, sizeof(opt)) < 0) {perror("setsockopt");close(sockfd);return -1;
}// 绑定端口
struct sockaddr_in addr;
addr.sin_family = AF_INET;
addr.sin_port = htons(8080);
addr.sin_addr.s_addr = INADDR_ANY;if (bind(sockfd, (struct sockaddr*)&addr, sizeof(addr)) < 0) {perror("bind");close(sockfd);return -1;
}
4.5 SO_REUSEADDR
与SO_REUSEPORT
的区别与配合
-
区别
SO_REUSEADDR
解决TIME_WAIT
端口的快速重用问题。SO_REUSEPORT
允许多个应用程序同时绑定同一端口,实现负载均衡。
-
配合使用
- 两者可以同时启用,既可解决
TIME_WAIT
问题,又能实现多核性能优化:setsockopt(sockfd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt)); setsockopt(sockfd, SOL_SOCKET, SO_REUSEPORT, &opt, sizeof(opt));
- 两者可以同时启用,既可解决
通过对SO_REUSEADDR
和SO_REUSEPORT
的结合使用,可以根据实际场景自由选择解决方案,既提升服务的可用性,又优化负载能力。
5. 总结
- CLOSE_WAIT问题的根源是代码逻辑错误,修复代码即可解决。
- TIME_WAIT积压的本质是TCP的安全机制,需根据场景选择解决方法:
- 强制关闭:使用
SO_LINGER
。 - 快速重用:使用
SO_REUSEADDR
。
- 强制关闭:使用
- 理解TCP状态和内核行为,才能在解决问题时更有针对性。
关闭套接字的先后顺序对TCP状态的影响
- 注意: 下图是在
Ubuntu
测试的结果,Windows
测试的结果可能不一样