请求的响应----状态码分为五大类(爬虫)

server/2024/10/18 5:34:12/

前言

一个爬虫的成功与否,在于你是否拿到了想要的数据;一个请求的成功与否,在于响应的状态码,它标明了当前请求下这个响应的结果,是好还是坏。上节课程学习了HTTPS和HTTP协议的各自优势,本节课程进入到请求的响应部分,学习下如何根据响应状态码,判断当前响应是好还是坏。

  1. 状态码的重要意义

互联网是个超级复杂的超大型项目,没网络的情况下,我们的电脑访问不了网络;有网络的前提下,网站正常工作我们才能访问。单个的请求响应流程是非常简单的,如下图:

为了应对复杂多变的网络情况,http协议在设计之初就准备好了响应状态码,来标识本次请求响应的状态。

HTTP状态码(英语:HTTP Status Code)是用以表示网页服务器超文本传输协议响应状态的3位数字代码。它由 RFC 2616 规范定义的,并在后续的HTTP新版本的规范中扩展。所有状态码的第一个数字代表了响应的五种状态之一。

状态码分为五大类,分别是:

100系列:消息【除非在某些试验条件下,服务器禁止向此类客户端发送 1xx 响应】

200系列:成功

300系列:跳转

400系列:失败

500系列:错误

虽说是5类,但是100系列,是不允许使用的,所以常见的是4类。下面详细介绍一下这4类中,常见的状态码数值和所表达的意思。

  • 成功的200系列

200是浏览器的日常使用中最常见的,因为网站要正常工作,200是必须的,不然工程师要挨骂的。

200 OK:这个是最常见的,也是爬虫工程师最喜欢的,代表你本次的请求顺利拿到了响应,没有任何问题。

  1. 201 Created:201代表创建成功,通常是指浏览器或爬虫给服务器上传数据,服务器接收并验证数据没问题之后,服务器返回客户端一个201,代表成功。提交数据,通常是POST方法提交
  2. 202 Accepted:服务器拿到了数据,但是还没处理好结果,所以先发回一个202。这个状态码一般在爬虫中看不到,但是适合在异步操作的情况下返回。
  3. 跳转的300系列

通常为了更方便的操作,服务器会告诉客户端进一步的优化操作,例如张三搬家了,旧服务器给你新地址让你找新服务器等;

  1. 301 Moved Permanently:当前资源的网址永久性迁移,并且会给你一个新的网址。值得注意的是,如果是POST请求拿到301,则下一次请求自动变成GET。
  2. 302 Move Temporarily:当前资源网址暂时性迁移到新地址,和301性质有点不一样。
  3. 304 Not Modified:这个在浏览器加载静态资源的时候,特别容易碰到,就是浏览器使用本地缓存而不消耗带宽去加载在线的静态资源,是加速网页渲染的一种资源调用机制。是前端程序员嫌弃的一个状态码。
  • 失败的400系列

400系列代表着失败,是爬虫程序中非常常见的,没有之一。而且很多时候,一个错误需要调试挺长时间的。了解400系列中常见的错误,对调试非常有益。

  1. 400 Bad Request:错误请求,400系列最典型的,看到这个错误,要么是请求头参数不对,要么是请求主体的内容错误。
  2. 401 Unauthorized:401认证错误,这个还是非常好识别的,身份无法识别或者身份权限不够,检查请求头中的身份字段信息和Cookie值。
  3. 403 Forbidden:禁止访问,大并发爬虫中比较容易碰到,问题很直观,你访问太多了【换IP或电脑】,或者身份权限不够【换身份信息】。
  4. 404 Not Found:404找不到,这个错误不用太在意,用浏览器测试几次就好,要么是你的网址写错了,要么是网址对应的网络资源无法加载【这不怪程序】。
  5. 405 Method Not Allowed:405方法不被允许,简单且少见的错误,意思就是你请求的姿势不对,检查请求方法,如Get、Post、Put、Delete,总有一个是对的。
  • 错误的500系列

  1. 500 Internal Server Error:网络错误,就和你断网了一样,具体点就是你的网络和网址所在网络,无法连通。

  2. 502 Bad Gateway:网关错误,请求出去要被网关解析目的地址并转发你的请求,这个错误就是网关不工作了,无法把你的请求发出去。这里的网关,可以理解成你的路由器或者你用的代理IP服务器。
  3. 503 Service Unavailable:服务不可用,这个就是目标服务器的问题了,你要做的是通知网站管理员或者等。一般情况下,国家网站部分有休息时间,例如晚上关网。商业服务器的服务不可用,大多是升级或者临时卡了,可以过段时间再试。
  4. 504 Gateway Timeout:网关超时,这个504和502,都是网关的问题,但是又不一样。504是你找网关转发,你默认等待180秒【3分钟】,然后网关超时了没理你;502的问题是,你压根就找不到网关。
  5. 505 HTTP Version Not Supported:HTTP版本不支持,这个比较少见,但是肯定有。网站内容太新或者太旧,对客户端的http版本要求不一样。你需要检查下本次请求所使用的http版本,然后改成网站指定版本,就可以解决这个问题。

以上是常见的4类状态码的说明。

最后说明下,状态码是对当前本次的请求响应做的一个说明代码,是一种规范。

这个状态码数值,服务器那边可以规定返回的数值,服务端开发者可以完全照着规范来开发,也可以不遵循规范开发网站的响应状态码。

例如你用爬虫登录错误的账号,登录请求发出去,服务器给你响应,可能结果如下: 

        响应状态码是200,内容写的是账号密码不对;

        响应状态码是401,内容写的是账号密码不对;

        响应状态码是404,内容写的是账号密码不对;

以上的返回结果都是有可能的,因为规范不是所有开发者都会遵守。

 但是300和500系列,大部分都是遵循规范的,因为这两个系列,大部分结果不是服务器给响应状态码,是客户端【浏览器或爬虫】直接根据网络请求,返回的结果。最后一个示例图,不同系列的状态码通常出现在的请求响应阶段:

总结

状态码是HTTP协议的规范,即便电脑断了网,失败的响应都会有一个状态码。

了解了状态码,可以更理智的分析当前响应的状态,快速定位具体问题,以及修改爬虫代码。

当然状态码这仅仅是规范中的一项,下节课程还要学习请求头中的重点字段,这也是非常重要的信息。

一个爬虫的成功与否,在于你是否拿到了想要的数据;一个请求的成功与否,在于响应的状态码,它标明了当前请求下这个响应的结果,是好还是坏。上节课程学习了HTTPS和HTTP协议的各自优势,本节课程进入到请求的响应部分,学习下如何根据响应状态码,判断当前响应是好还是坏。 


http://www.ppmy.cn/server/132688.html

相关文章

【二刷hot-100】day2

目录 1.无重复字符的最长子串 2.找到字符串中所有字母异位词 3.和为 K 的子数组 4.滑动窗口最大值 1.无重复字符的最长子串 class Solution {public int lengthOfLongestSubstring(String s) {Map<Character,Integer> dict new HashMap<>();int ret0;int i-1;for…

设计模式和软件框架的关系

设计模式和软件框架在软件开发中都有助于解决复杂问题和提高代码质量&#xff0c;但它们在概念和使用上存在一些区别。它们的关系可以通过以下几点理解&#xff1a; 层次与抽象程度 设计模式&#xff08;Design Patterns&#xff09;是一组通用的、可复用的解决方案&#xff0c…

除GOF23种设计模式之简单工厂模式

文章目录 1. 简介2. 代码2.1 抽象类&#xff1a;Course.java2.2 产品A:JavaCourse.java2.3 产品B:PythonCourse.java2.4 工厂:CourseFactory.java2.5 测试&#xff1a;Test.java 3. 心得参考链接&#xff08;无&#xff09; 1. 简介 简单工厂模式(Simple Factory Patern):又称…

Unix Standardization and Implementations

Unix标准化 在Unix未制定较为完备的标准时&#xff0c;各个平台的系统调用方式各异&#xff0c;所开发出的应用程序存在可移植性差的特点&#xff0c;因此人们呼吁指定一套Unix标准来规范接口&#xff0c;增加应用程序的可移植性。所谓Unix标准即适用于Unix环境下的一系列函数…

【算法】约瑟夫环问题

据说著名的犹太历史学家Josephus有过以下故事&#xff0c; 罗马人占领乔塔帕特&#xff0c; 39个犹太人与Josephus和他的朋友躲在洞中&#xff0c;其中39个犹太人决定自杀&#xff0c; &#xff0c;他们的自杀方式是41个人绕成一圈&#xff0c;第一个人报数1&#xff0c;报数到…

M1 Mac打开Jupyter notebook

当我成功安装了Jupyter之后&#xff0c;发现无法通过 jupyter notebook 开始工作。 最初的问题是 zsh command not found 该问题是个路径问题&#xff0c;通过添加PATH环境变量就行了&#xff0c;设置环境变量时需要注意&#xff0c;zshrc和bash_profile中都可以设置&…

基于Matlab的人脸识别系统设计与仿真(含源文

目录 第一章 绪论 1.1 研究背景 1.2 人脸图像识别的应用前景 1.3 本文研究的问题 1.4 识别系统构成 1.5 论文的内容及组织 第二章 图像处理的Matlab实现 2.1 Matlab简介 2.2 数字图像处理及过程 2.2.1图像处理的基本操作 2.2.2图像类型的转换 2.2.3图像…

串口(UART)的FPGA设计(接收与发送模块)

目录 串口基础知识 一、什么是串口?有哪些特点? 二、常见的串口通信协议有哪些?他们有什么区别?