『python爬虫』05. requests模块入门(保姆级图文)

news/2024/12/2 16:43:07/

目录

    • 安装requests
    • 1. 抓取搜狗搜索内容 requests.get
    • 2. 抓取百度翻译数据 requests.post
    • 3. 豆瓣电影喜剧榜首爬取
    • 4. 关于请求头和关闭request连接
    • 总结


欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中

安装requests

直接安装
pip install requests
使用国内源安装
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

1. 抓取搜狗搜索内容 requests.get

import requests
query = input("输入你要搜索的内容:")url = f'https://www.sogou.com/web?query={query}'# 写一个 Mozilla的请求头参数
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}resp = requests.get(url, headers=headers)  # 模拟 Mozilla 浏览器访问网页print(resp)# 返回响应结果 状态码
print(resp.text)  # 拿到页面源代码

在这里插入图片描述


2. 抓取百度翻译数据 requests.post

https://fanyi.baidu.com/

在这里插入图片描述
在这里插入图片描述
由此可知,我们的请求方式是post,请求url是post的地址https://fanyi.baidu.com/sug
在这里插入图片描述
在这里插入图片描述

观察一下我们的formdata,在我们逐渐输入apple的过程中,分别post请求,带有kw参数为“a” “ap” “app” “appl” "apple"的五次请求。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
总结:请求地址https://fanyi.baidu.com/sug,请求方式post,请求带有参数kw

url = "https://fanyi.baidu.com/sug"s = input("请输入你要翻译的英文单词:")
dat = {"kw": s
}# 发送post请求, 发送的数据必须放在字典中, 通过data参数进行传递
resp = requests.post(url, data=dat)
print(resp.json())  # 将服务器返回的内容直接处理成json()  => dict

在这里插入图片描述
采用逐字逐字地输入搜索关键词,多次搜索的方式,可以快速寻找得到我们需要的请求地址。
post请求的参数一般是formdata。


3. 豆瓣电影喜剧榜首爬取

https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

在这里插入图片描述
请求方式get 得到了请求的url
在这里插入图片描述
查看请求的参数
在这里插入图片描述

import requestsurl = "https://movie.douban.com/j/chart/top_list"# 重新封装参数
param = {"type": "24","interval_id": "100:90","action": "","start": 0,"limit": 20,
}headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}resp = requests.get(url=url, params=param, headers=headers)print(resp.json())

在这里插入图片描述

get请求的参数一般是query String。

4. 关于请求头和关闭request连接

服务器在爬虫中是可以知道访问网页的是爬虫还是浏览器,通过我们的请求头判断。<Response [418]> 表示服务器的反爬机制拒绝了爬虫

请求后,如果不需要这个request连接需要close关闭,request默认的keep alive是保持的。如果不关闭,会导致同时多个端口爬取目标网页,可能会对网站的负载带来压力(一般情况下不会,因为人家会先把你封掉)

import requestsurl = "https://movie.douban.com/j/chart/top_list"# 重新封装参数
param = {"type": "24","interval_id": "100:90","action": "","start": 0,"limit": 20,
}headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}resp = requests.get(url=url, params=param) #试试不使用请求头的后果? 提示服务器检测到了python爬虫,无法返回信息
print(resp)#<Response [418]> 表示服务器的反爬机制拒绝了爬虫
resp.close()#关闭连接
resp = requests.get(url=url, params=param, headers=headers)
print(resp)
print(resp.json())
resp.close()#关闭连接

在这里插入图片描述


总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2023 mzh

Crated:2023-3-1

欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『未完待续』



http://www.ppmy.cn/news/59192.html

相关文章

redis基本数据类型及常见命令

数据库操作 select <库号>: 切换库 默认共有15个 dbsize: 查看当前库的key数量 flushdb: 清空当前库 flushall: 清空所有库 Key的操作 keys *&#xff1a; 查看当前库的所有key exists <key>: 判断该key是否存在 type <key>: 查看该key的类型 de <…

Docker安全最佳实践

目录 1、探测容器开放端口和服务漏洞 2、宿主机、网络、镜像、DockerApi安全 3、更新Docker、日志、事件 4、Docker安全测试 5、Docker安全最佳实践 1、探测容器开放端口和服务漏洞 使用Nmap扫描Docker容器中的开放端口 使用docker ps命令获取正在运行的容器ID或名称。在…

SpringData-Redis配置及常用操作

文章目录 1.引入依赖2.yml配置文件3.设置Redis序列化4.使用教程5.操作String数据类型6.操作Hash数据类型7.操作Set数据类型8.操作List数据类型9.操作Sorted Set 数据类型 1.引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId…

GPT系列论文

目录 GPT 无监督预训练 有监督微调 如何将模型应用于下游任务&#xff1f; 试验结果 GPT-2 摘要 Introduction Approach 数据集&模型 试验结果 GPT-3 核心点 名词解释 few-shot做法图示 数据集 GPT 由无监督预训练有监督微调组成 无监督预训练 有监督微调…

Python3中for循环多个变量详解

for 循环用于迭代任何序列&#xff0c;从列表到元组再到字典。它甚至可以遍历一个字符串。 在同一行代码中同时对变量进行多次赋值&#xff0c;称为可迭代解包。 Python的 for 循环中&#xff0c;使用多个变量可以应用于列表或字典&#xff0c;但它不适用于一般错误。 字典中…

嵌入式C语言基础(STM32)

前言&#xff1a;一条混迹嵌入式3年的老咸鱼&#xff0c;想到自己第一次接触到stm32的库函数时&#xff0c;c语言稀碎&#xff0c;痛不欲生的场景&#xff0c;该文章为萌新指条明路。 一、位操作 位操作在嵌入式中常用于直接对芯片的寄存器进行操作&#xff0c;当时作为初学者…

【三十天精通Vue 3】 第二十三天 Vue 3的错误处理详解

✅创作者&#xff1a;陈书予 &#x1f389;个人主页&#xff1a;陈书予的个人主页 &#x1f341;陈书予的个人社区&#xff0c;欢迎你的加入: 陈书予的社区 &#x1f31f;专栏地址: 三十天精通 Vue 3 文章目录 引言一、Vue 3 错误处理概览1. 错误处理的重要性2. Vue 3 中的错误…

【Redis】聊一下Redis基础架构

我们知道学习一个技术&#xff0c;最好的方式就是从全局观出发&#xff0c;然后针对不同的点进行拆分&#xff0c;一个个破解。既可以将学到的和已有的知识联系起来&#xff0c;又可以有一定的深度和目的性。 Redis基础架构 对于一个中间件来说&#xff0c;一个是使用层面&…