python爬虫入门(一)之HTTP请求和响应

ops/2024/10/21 9:59:37/

一、爬虫的三个步骤(要学习的内容)

1、获取网页内容 (HTTP请求、Requests库)

2、解析网页内容  (HTML网页结构、Beautiful Soup库)

3、存储或分析数据

b站学习链接:

【【Python+爬虫】爆肝两个月!拜托三连了!这绝对是全B站最用心(没有之一)的Python+爬虫公开课程,从入门到(不)入狱 !】 https://www.bilibili.co/video/BV1d54y1g7db/?share_source=copy_web&vd_source=7e5d8bc8e5429bc3a99a6b8e86b901f8

二、HTTP

1、什么是HTTP?

http: Hypertext Transfer Protocol(超文本传输协议)

      客户端和服务器之间的请求-响应协议

eg: 浏览器可看作一个服务端,在浏览器中输入网址,

浏览器就会向运行该网站的服务器发送请求,

然后等待服务器返回给浏览器响应

2、HTTP的两种请求方法

1、GET(获得数据)

大部分用get

2、POST(创建数据)

3、HTTP请求的组成结构

(1)请求行:

POST         / user / info ? new_user=true         HTTP / 1.1

方法类型            资源路径?查询参数             HTTP的协议版本

资源路径:指明要访问服务器的哪个资源

查询参数:写在?后面,传递给服务器额外的信息,不同信息之间用&分隔

eg: www.douban.com / movie /top250 ?start=75&filter=unwatched

      主机域名 (+资源路径)(+查询参数)== 网址

(2)请求头:

Host: www.douban.com  主机域名

User-Agent: curl /7.77.0  用来告知服务器客户端的相关信息

请求是什么东西发出来的,以及这个东西的版本

eg:  curl / 7.77.0(curl命令行工具发出的) 

       python-requests / 2.25.1 (python的requests库发出的)

Accept: */*  告诉服务器,客户端想接收的响应数据的类型

eg: 接受HTML:text / html

      接受HTML和JOSN:text / html, application / json (多种类型用逗号分隔开)

      接受任意类型:*/*

(3)请求体:客户端传给服务器的其他任意数据

(GET的请求体一般是空的)

{"username":"西瓜大侠",

"email":"3380958706@qq.com"}

简言之,HTTP请求由三部分组成:

请求行:用什么方法查询什么资源 + HTTP的版本

请求头:主机域名 + 客户端是什么及其版本 + 客户端想接受的响应类型 

            (where who what 服务器在哪儿  客户端是谁  客户端想要什么)

请求体:客户端的其他数据

4、HTTP响应的组成结构

(1)状态行:

HTTP / 1.1     200          OK

协议版本      状态码    状态消息

状态码和状态消息相对应:

2开头:表示请求成功

3开头:表示重定向,需要进一步的操作

4开头:表示客户端错误(请求不能被理解、请求未授权或404请求的资源不存在...)

5开头:表示服务器错误(出现问题或正在维护)

(2)响应头:包含一些告知客户端的信息

Date: Fri, 27 Jan 2023 02:10:48 GMT 生成相应的日期和时间

Content-Type: text/html; charset=utf-8 返回内容的类型及编码格式

(3)响应体:服务器想给客户端的数据内容


http://www.ppmy.cn/ops/55814.html

相关文章

【Linux】文件系统6——理解文件操作

目录 1.文件的读取 1.1.目录 1.2.文件 1.3.目录树读取 1.4.文件系统大小与磁盘读取性能 2.增添文件 2.1.数据的不一致(Inconsistent)状态 2.2.日志式文件系统(Journaling filesystem) 3.Linux文件系统的运行 4、文件的删…

java花店管理系统eclipse开发mysql数据库

1 绪论 1.1 系统开发目的 随着人们物质生活水平和经济水平的不断提高,室内绿化布置、家庭园艺装饰、礼仪鲜花等日益受到重视和青睐,以及送鲜花给亲朋好友来表达自己的情谊。传统的花店对于信息的管理的主要方式是基于文本、表格等纸质手工处理&#xf…

VMware替换关键技术:核心业务系统中,访存密集型应用的性能优化

越来越多用户采用虚拟化、超融合以及云平台环境来承载其核心业务,核心业务的高并发对性能的要求尤为严格,在VMware替换的热潮下,原VMware用户也更为关注新平台在核心业务上的性能表现是否对标,或实现超越。深信服将通过系列解析&a…

智慧矿山:EasyCVR助力矿井视频多业务融合及视频转发服务建设

一、方案背景 随着矿井安全生产要求的不断提高,视频监控、数据传输、通讯联络等业务的需求日益增长。为满足矿井生产管理的多元化需求,提高矿井作业的安全性和效率,TSINGSEE青犀EasyCVR视频汇聚/安防监控综合管理平台,旨在构建一…

Python 函数递归

以下是一个使用递归计算阶乘的 Python 函数示例 : 应用场景: 1. 动态规划问题:在一些需要逐步求解子问题并利用其结果的动态规划场景中,递归可以帮助直观地表达问题的分解和求解过程。 2. 遍历具有递归结构的数据:如递…

绝区叁--如何在移动设备上本地运行LLM

随着大型语言模型 (LLM)(例如Llama 2和Llama 3)不断突破人工智能的界限,它们正在改变我们与周围技术的互动方式。这些模型早已集成到我们的手机中,但到目前为止,它们理解和处理请求的能力还非常有限。然而,…

Linux 永久挂载磁盘

文章目录 前言一、使用步骤1.命令 总结 前言 一、使用步骤 1.命令 第一步:创建挂载点 sudo mkdir /hhkj 第二步:磁盘挂载到挂载点(lsblk、lvdisplay) sudo mount /dev/sdb2 /hhkj 或者 sudo mount /dev/centos/home /hhkj 第三…

VRPTW(MATLAB):常春藤算法(IVY)求解带时间窗的车辆路径问题VRPTW,MATLAB代码

详细介绍 VRPTW(MATLAB):常春藤算法(Ivy algorithm,IVY)求解带时间窗的车辆路径问题VRPTW(提供MATLAB代码)-CSDN博客 ********************************求解结果******************…