urllib了解
urllib 库 是 Python 内置的 HTTP 请求库。urllib 模块提供的上层接口,使访问 www 和 ftp 上的数据就像访问本地文件一样。 有以下几种模块:
-
urllib.request 请求模块
-
urllib.error 异常处理模块
-
urllib.parse url解析模块
-
urllib.robotparser robots.txt 解析模块
urllib.request模块详讲
urllib.request 模块提供了最基本的构造 HTTP 请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理 authenticaton (授权验证), redirections (重定向), cookies (浏览器Cookies)以及其它内容。
常用的方法
-
urllib.request.urlopen("网址"/"请求对象") 作用 :向网站发起一个请求并获取响应 urlopen()不支持重构User-Agent
-
read() 读取服务器响应的内容
-
字节流 = response.read()
-
字符串 = response.read().decode("utf-8")
-
getcode() 返回HTTP的响应码
-
geturl() 返回实际数据的URL(防止重定向问题)<