前言
两个应用程序如果需要进行通讯最基本的一个前提就是能够唯一的标示一个进程,我们知道IP层的ip地址可以唯一标示主机,而TCP层协议和端口号可以唯一标示主机的一个进程,这样我们可以利用ip地址+协议+端口号唯一标示网络中的一个进程。能够唯一标示网络中的进程后,它们就可以利用socket进行通信了,本文将对socket进行介绍。
什么是socket
什么是socket呢?我们经常把socket翻译为套接字,socket是在应用层和传输层之间的一个抽象层,它把TCP/IP层复杂的操作抽象为几个简单的接口供应用层调用来实现进程在网络中通信。
学习网络编程的目的是为了开发基于互联网通信的软件,不论是BS架构的还是CS架构的。我们开发互联网通信软件是处于TCP/IP五层协议中的应用层,当涉及到数据需要经过互联网传输时,就需要使用到socket抽象层。这个socket抽象层不属于TCP/IP五层,是一个抽象的出来的,帮我们封装了包括传输层以下的其他各层。它把复杂的TCP/IP协议族隐藏在Socket接口后面,对用户来说,一组简单的接口就是全部,让Socket去组织数据,以符合指定的协议。在开发时,只需要遵循socket的规定编写代码,写出来的程序自然遵循TCP/UDP协议。
套接字发展历史及分类
套接字起源于 20 世纪 70 年代加利福尼亚大学伯克利分校版本的 Unix,即人们所说的 BSD Unix。 因此,有时人们也把套接字称为“伯克利套接字”或“BSD 套接字”。一开始,套接字被设计用在同 一台主机上多个应用程序之间的通讯。这也被称进程间通讯,或 IPC。套接字有两种(或者称为有两个种族),分别是基于文件型的和基于网络型的。
基于文件类型的套接字家族
套接字家族的名字:AF_UNIX,在 unix中一切皆文件,基于文件的套接字调用的就是底层的文件系统来取数据,两个套接字进程运行在同一机器,可以通过访问同一个文件系统间接完成通信。
基于网络类型的套接字家族
套接字家族的名字:AF_INET ,还有AF_INET6被用于ipv6,还有一些其他的地址家族,不过,他们要么是只用于某个平台,要么就是已经被废弃,或者是很少被使用,或者是根本没有实现,所有地址家族中,AF_INET是使用最广泛的一个,python支持很多种地址家族,但是由于我们只关心网络编程,所以大部分时候我们只使用AF_INET 。
socket模块
socket可以实现两个网络中的进程进行通信,我们可以从日常生活中的例子来对比socket的工作流程,比如你要给一个朋友打电话,先拨号,朋友听到电话铃声后提起电话,这时你和你的朋友就建立起了连接,就可以讲话了。等交流结束,挂断电话结束此次交谈。 生活中的场景就解释了socket的工作原理。
服务端:
1 初始化socket对象
2 socket对象与服务端的IP和端口绑定(bind)
3 对端口进行监听(listen)
客户端:
1 初始化socket对象
2 连接服务器(connect)
3 如果连接成功,客户端与服务端的连接就建立了
连接成功后:
1 客户端发送数据请求
2 服务端接收请求并处理请求
3 讲回应数据发送给客户端,客户端读取数据
4 关闭连接,一次交互结束
python中的socket模块就封装了socket抽象层,并提供了一些简单的接口帮助我们实现上述过程。下述代码介绍socket模块的基本使用:
补充:python查看源码的方式:按住ctrl
,将鼠标悬停在需要查看源码的对象上,点击,就可以看见源码。
# socket_family 可以是 AF_UNIX 或 AF_INET。socket_type 可以是 SOCK_STREAM 或 SOCK_DGRAM。socket_family默认是-1,表示AF_INET,socket_type默认也是-1,表示SOCK_STREAM。可以通过源码查看
socket.socket(socket_family, socket_type, protocal=0)# 获取tcp/ip套接字
tcp_sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
tcp_sock = socket.socket() # 默认就是-1,可以不写# 获取udp/ip套接字
udpSock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
socket模块为客户端程序和服务端程序分别提供了不同的方法进行收发数据,也提供了一些公用的方法。知道了socket模块的用法,我们就可以根据socket模块基于TCP/UDP协议进行开发客户端和服务端的小程序了。我们依次来进行介绍:
首先是socket模块为服务端(sever)提供的方法:
import sockets = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 获取socket对象
s.bind() # 绑定主机、端口号到套接字
s.listen() # 开始TCP监听
s.accept() # 被动接受TCP客户的连接,(阻塞式)等待连接的到来
下面来看socket模块为客户端(client)提供的方法:
import sockets = socket.socket() # socket对象
s.connect() # 主动初始化连接TCP服务器
s.connect_ex() # connect()函数的扩展版本,出错时返回出错码,而不是抛出异常
最后就是一些socket为客户端和服务端提供的一些公共方法:
s.recv() # 接收TCP数据
s.send() # 发送TCP数据(send在待发送数据量大于己端缓存区剩余空间时,数据丢失,不会发完)
s.sendall() # 发送完整的TCP数据(本质就是循环调用send,sendall在待发送数据量大于己端缓存区剩余空间时,数据不丢失,循环调用send直到发完)
s.recvfrom() # 接收UDP数据
s.sendto() # 发送UDP数据
s.getpeername() # 连接到当前套接字的远端的地址
s.getsockname() # 当前套接字的地址
s.getsockopt() # 返回指定套接字的参数
s.setsockopt() # 设置指定套接字的参数
s.close() # 关闭套接字连接
基于TCP的套接字
tcp协议的基于双向连接的,因此必须先启动服务端,然后再启动客户端连接服务器。
先从服务器端说起:服务器端先初始化Socket,然后与端口绑定(bind),对端口进行监听(listen),调用accept阻塞,等待客户端连接。
在这时如果有个客户端初始化一个Socket,然后连接服务器(connect),如果连接成功,这时客户端与服务器端的连接就建立了。
客户端发送数据请求,服务器端接收请求并处理请求,然后把回应数据发送给客户端,客户端读取数据,最后关闭连接,一次交互结束。
以上就是一次基于TCP通信的简单流程,根据打电话的原理对比,具体代码如下:
简单版TCP通信
服务端文件:
# sever.py 服务端文件
# 以手机接打电话为例
import socket# 1 买手机---获取服务端收发数据的对象
phone = socket.socket(socket.AF_INET,socket.SOCK_STREAM)# 2 手机插卡---给服务端绑定IP+端口
phone.bind(('127.0.0.1',6666))# 3 开机---服务端处于监听状态
phone.listen(3) # 半连接池只能存放三个待确认的连接请求# 4 等待来电---服务端与客户端建立连接,建立连接后可以拿到TCP连接的通道信息,和客户端的IP和接口
conn,client_addr = phone.accept()
print(conn)
print('客户端IP和接口',client_addr)# 5 电话接通,两人愉快的聊天---收发数据
data = conn.recv(1024) # 最大接收数据量为1024bytes
print('客户端消息', data.decode('utf-8'))
conn.send(data.upper())# 6 挂断电话---断开与客户端的连接
conn.close()# 7 手机关机---服务端关机
phone.close()
客户端文件
# client.py
import socketphone = socket.socket(socket.AF_INET,socket.SOCK_STREAM)phone.connect(('127.0.0.1',6666))phone.send('show 信息'.encode('utf-8'))data = phone.recv(1024)print('服务端',data.decode('utf-8'))phone.close()
TCP循环通信
上述简单版的通信代码,有一个问题,就是费了好大劲才连接成功,结果发一句消息连接就断开了,就像打电话,打一次说一句话,挂断电话,如果还有没说完的,还需要再打....
为了解决上述问题,我们可以使用循环来不断接收或者发送数据 - 循环通讯
服务端文件:
# sever.py
import socket# 1 买手机---获得服务端的对象
phone = socket.socket()# 2 手机插卡---确定服务端的IP和端口
phone.bind(('127.0.0.1',7890))# 3 手机开机---服务端进入监听状态
phone.listen(3)# 4 等待接听电话,获取TCP通道和客户端的IP和端口conn,client_addr = phone.accept()# 5 通电话---收发数据
while True:# 异常处理:当防止客户端突然关闭服务端崩溃try:data = conn.recv(1024)if not data:breakprint('客户端',data.decode('utf-8'))conn.send(data.upper())except Exception:break# 6 挂断电话---服务端与客户端通道断开
conn.close()# 7 关机---服务端关机
phone.close()
客户端文件:
# client.py
import socketphone = socket.socket()
phone.connect(('127.0.0.1', 7890))
while True:info = input('>>').strip()# 当发送的数据长度为0时,服务端和客户端都会进入等待收数据的阻塞阶段,所以进行判断,判断用户输入的信息被strip处理后,长度是否为0if len(info) == 0:continueif info == 'q': breakphone.send(info.encode('utf-8'))data = phone.recv(1024)print('服务端', data.decode('utf-8'))phone.close()
服务端不关闭的TCP通信
上述代码方案也存在问题,作为服务端应该满足两个条件,一是需要为客户端一直提供服务,二是并发的提供服务,上述循环通信当客户端断开连接后,服务端也随之终止运行,就无法再向其他客户端提供服务了。因此我们可以让服务端一直处于不关闭的状态。下述为优化后的服务端代码:
# sever.py
import socketphone = socket.socket(socket.AF_INET,socket.SOCK_STREAM)phone.bind(('127.0.0.1',65447))phone.listen(5)
while True:conn, client_addr = phone.accept()while True:try:data = conn.recv(1024)if not data:breakprint('客户端',data.decode('utf-8'))conn.send(data.upper())except Exception:breakconn.close() # 这里只是断开客户端和服务端的连接
当然,上述代码也是存在需要优化的地方,就是服务端只能同时为一个客户端进行服务,如果想要让服务端为多个服务端进行服务,需要用到我们后面将要学的知识 - 并发编程。这里就不做过多介绍了。
在使用TCP通信时,客户端如果发的消息的空,也会出现问题。如果客户端发的消息为空,这个消息其实是不会发出去的,只是应用程序将这个消息发给了操作系统,操作系统收到后,发现是空,不会往外发的。所以客户端发空后进入recv等状态状态,而此时服务端是压根没有收到任何消息也不会回复,所以就陷入的尴尬的两边等状态。解决的办法就是判断客户端发的消息是否为空,为空直接跳到下一个循环,不让这个空消息发给操作系统。
基于UDP的套接字
udp是无链接的,先启动哪一端都不会报错。因此,它要比基于tcp的套接字在使用上简单很多。
UDP协议是数据报协议,发空的时候也会自带报头,因此客户端输入空,服务端也能收到。
基于udp的套接字是没有连接的,客户端和服务端都可以先开启套接字通信,也都可以提前结束通信,即客户端离开不会影响到服务端的正常运行。
服务端代码
# server.py
import socketip_port = ('127.0.0.1', 8080)
server = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
server.bind(ip_port)
print('服务端开始监听......')while True:get_msg, client_addr = server.recvfrom(1024)print('from client:', get_msg)server.sendto(get_msg.upper(), client_addr)# server.close()
客户端代码
import socketip_port = ('127.0.0.1', 8080)
client = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)while 1:msg = input('>>>:').strip()if msg == 'q':breakif not msg: # 其实,udp的套接字,支持客户端发空的,服务端也能收到空continueclient.sendto(msg.encode('utf-8'), ip_port)get_msg, server_addr = client.recvfrom(1024)print(get_msg.decode('utf-8')) # 关闭客户套接字
TCP协议的粘包问题
粘包问题
首先说明一点,TCP有粘包问题,UDP没有粘包问题。
发送端可以是1KB地发送数据,而接收端的应用程序可以2KB地提走数据,当然也有可能一次提走3K或6K数据,或者一次只提走几个字节的数据,也就是说,应用程序所看到的数据是一个整体,或说是一个流(stream),一条消息有多少字节对应用程序是不可见的,因此TCP协议是面向流的协议,这也是容易出现粘包问题的原因。而UDP是面向消息的协议,每个UDP段都是一条消息,应用程序必须以消息为单位提取数据,不能一次提取任意字节的数据,这一点和TCP是很不同的。
TCP是面向连接的,面向流的,提供高可靠性服务。 收发两端(客户端和服务器端)都要有一一成对的socket,因此,发送端为了将多个发往接收端的包,更有效的发到对方,使用了优化方法(Nagle算法),将多次间隔较小且数据量小的数据,合并成一个大的数据块,然后进行封包。 这样,接收端就难于分辨出来了,必须提供科学的拆包机制。 即面向流的通信是无消息保护边界的。
UDP是无连接的,面向消息的,提供高效率服务。 不会使用块的合并优化算法,, 由于UDP支持的是一对多的模式,所以接收端的skbuff(套接字缓冲区)采用了链式结构来记录每一个到达的UDP包,在每个UDP包中就有了消息头(消息来源地址,端口等信息)。 这样,对于接收端来说,就容易进行区分处理了。 即面向消息的通信是有消息保护边界的。
**基于TCP协议的粘包问题主要就是因为接收方不知道消息之间的界限,不知道每次应该提取多少字节的数据造成的。**总结一下,会在两种情况下出现粘包问题:
- 将多次间隔较小且数据量小的数据,合并成一个大的数据块,然后进行封包,造成粘包
- 客户端发送了一段数据,服务端只收了一小部分,服务端下次再收的时候还是从缓冲区拿上次遗留的数据,产生粘包
解决粘包问题
问题的根源在于,接收端不知道发送端将要传送的字节流的长度,所以解决粘包的方法就是围绕,如何让发送端在发送数据前,把自己将要发送的字节流总大小让接收端知晓,然后接收端来一个循环接收完所有数据。每个消息接收完,不留残余。
具体做法是:发送端发数据前,先将待发的数据长度告知接收端。将数据长度放在一个固定长度的字节中发给接收端;接收端先接收这个固定长度的数据头,从这个数据头中获悉待接收数据的长度,做好循环接收的准备。
可以借助struct模块,该模块可以将任意数据类型转换成固定长度的bytes
,因此借助该模块就可以将发送方发送的数据总大小通过struct模块打包成固定长度的bytes
,接收端接收后获取发送方发送的数据总大小之后,使用循环接收即可。
把报头做成字典,字典里包含将要发送的真实数据的详细信息,然后json序列化,然后用struck将序列化后的数据长度打包成4个字节。
发送时: 先发报头长度,再编码报头内容然后发送,最后发真实内容;
接收时: 先接收报头长度,用struct取出来,根据取出的长度收取报头内容,然后解码反序列化,从反序列化的结果中取出待取数据的详细信息,然后去取真实的数据内容。
服务端代码:
import subprocess
import struct
import json
import socketserver=socket(AF_INET,SOCK_STREAM)
server.bind(('127.0.0.1',8083))
server.listen(5)# 服务端应该做两件事
# 第一件事:循环地从板连接池中取出链接请求与其建立双向链接,拿到链接对象
while True:conn,client_addr=server.accept()# 第二件事:拿到链接对象,与其进行通信循环while True:try:cmd=conn.recv(1024)if len(cmd) == 0:breakobj=subprocess.Popen(cmd.decode('utf-8'),shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)stdout_res=obj.stdout.read()stderr_res=obj.stderr.read()total_size=len(stdout_res)+len(stderr_res)# 1、制作头header_dic={"filename":"a.txt","total_size":total_size,"md5":"1111111111"}json_str = json.dumps(header_dic)json_str_bytes = json_str.encode('utf-8')# 2、先把头的长度发过去x=struct.pack('i',len(json_str_bytes))conn.send(x)# 3、发头信息conn.send(json_str_bytes)# 4、再发真实的数据conn.send(stdout_res)conn.send(stderr_res)except Exception:breakconn.close()
客户端代码:
import struct
import json
from socket import *client=socket(AF_INET,SOCK_STREAM)
client.connect(('127.0.0.1',8083))while True:cmd=input('cmd>>:').strip()if len(cmd) == 0: continueclient.send(cmd.encode('utf-8'))# 接收端# 1、先收4个字节,从中提取接下来要收的头的长度x = client.recv(4)header_len=struct.unpack('i',x)[0]# 2、接收头,并解析json_str_bytes=client.recv(header_len)json_str=json_str_bytes.decode('utf-8')header_dic=json.loads(json_str)print(header_dic)total_size=header_dic["total_size"]# 3、接收真实的数据recv_size = 0while recv_size < total_size:recv_data=client.recv(1024)recv_size+=len(recv_data)print(recv_data.decode('utf-8'),end='')else:print()