15分钟学 Python 第38天 :Python 爬虫入门(四)

server/2024/10/9 6:31:25/

Day38 : Python爬虫异常处理与反爬虫机制

章节1:异常处理的重要性

爬虫开发过程中,网络请求和数据解析常常会遭遇各种异常。正确的异常处理可以提高程序的稳定性,避免崩溃,并帮助开发者快速定位问题。

章节2:常见的异常类型

爬虫开发中,主要有以下几种异常:

异常类型描述
requests.exceptions.RequestException基类异常,用于处理所有请求异常
requests.exceptions.HTTPError表示HTTP错误,例如404或500错误
requests.exceptions.ConnectionError表示网络连接错误
requests.exceptions.Timeout请求超时错误
requests.exceptions.TooManyRedirects请求重定向过多

章节3:异常处理示例

下面的代码展示了如何在发送请求时进行异常处理:

python">import requestsdef fetch_url(url):try:response = requests.get(url)response.raise_for_status()  # 如果403或404都会引发异常return response.textexcept requests.exceptions.HTTPError as http_err:print(f"HTTP错误: {http_err}")except requests.exceptions.ConnectionError:print("连接错误,请检查网络连接。")except requests.exceptions.Timeout:print("请求超时,请重试。")except requests.exceptions.RequestException as e:print(f"请求时发生错误: {e}")return Noneurl = 'http://example.com'
data = fetch_url(url)
if data:print(data)

章节4:反爬虫机制概述

爬虫机制是网站采用的一系列技术手段,用以阻止或限制爬虫的访问。常见的反爬虫策略包括:

爬虫机制描述
用户代理检查检查请求的User-Agent是否正常
IP限制限制特定IP地址的请求频率
验证码在请求中插入验证码以确认用户身份
Cookie验证使用Cookies验证用户身份
动态内容加载使用JavaScript动态加载部分内容,爬虫无法直接获取

章节5:处理反爬虫机制

为了应对反爬虫机制,爬虫开发者可以采取一些策略:

5.1 设置用户代理(User-Agent)

伪装成浏览器发送请求:

python">headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
5.2 使用代理

通过代理服务器绕过IP限制:

python">proxies = {'http': 'http://your_proxy:port','https': 'http://your_proxy:port',
}
response = requests.get(url, proxies=proxies)
5.3 添加延迟

限制请求频率,以避免被封:

python">import timefor i in range(5):response = requests.get(url)print(response.status_code)time.sleep(2)  # 每次请求间隔2秒

章节6:完整示例 - 反爬虫处理

以下是一个示例程序,展示了如何应对反爬虫机制和进行异常处理。

python">import requests
import timedef fetch_url(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}proxies = {'http': 'http://your_proxy:port','https': 'http://your_proxy:port',}try:response = requests.get(url, headers=headers, proxies=proxies)response.raise_for_status()return response.textexcept requests.exceptions.HTTPError as http_err:print(f"HTTP错误: {http_err}")except requests.exceptions.ConnectionError:print("连接错误,请检查网络连接。")except requests.exceptions.Timeout:print("请求超时,请重试。")except requests.exceptions.RequestException as e:print(f"请求时发生错误: {e}")url = 'http://example.com'
for i in range(5):data = fetch_url(url)if data:print(f"请求成功: {len(data)} 字节")time.sleep(2)  # 每次请求间隔2秒

章节7:流量控制与限频策略

7.1 请求频率控制

为了避免触发反爬虫机制,可以设置请求频率:

  • 随机延迟:使用随机数生成请求间隔。
python">import randomfor i in range(5):delay = random.uniform(1, 5)  # 随机1到5秒之间time.sleep(delay)data = fetch_url(url)

章节8:异常和反爬虫的调试工具

工具描述
Fiddler网络调试代理,查看HTTP请求和响应头信息
PostmanAPI开发工具,测试HTTP请求
Selenium处理动态网页抓取,可以完整自动化浏览器行为

章节9:总结

在本节中,我们详细探讨了Python爬虫中的异常处理与反爬虫机制。学习如何有效处理各种异常,并采取合理的反爬虫策略,以增强爬虫程序的稳定性和抗压能力。

通过掌握这些技能,您将更加自信地编写高效、稳健的爬虫,抓取互联网中的各种数据,帮助实现数据分析和应用开发。


在这里插入图片描述
怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!


http://www.ppmy.cn/server/129144.html

相关文章

四、Python基础语法(数据类型转换)

数据类型转换就是将一种类型的数据转换为另外一种类型的数据,数据类型转换不会改变原数据,是产生一个新的数据。 变量 要转换为的类型(原数据) -> num int(28) 一.int()将其他类型转换为整型 1.整数类型的字符串转换为整型 num1 28 print(type…

ruoyi-python 若依python版本部署及新增模块【问题解决】

ruoyi spring版本支持一键导出前后端代码,且b站上有很多教程,但是发现python版本的教程并不多,于是自己尝试创建一个简易的CRUD模块 1.各版本bug 主要尝试了1.1.2版本和vue2的版本,链接如下: v1.1.2 vue2 两个版本…

通信协议感悟

本文结合个人所学,简要讲述SPI,I2C,UART通信的特点,限制。 1.同步通信 UART,SPI,I2C三种串行通讯方式,SPI功能引脚为CS,CLK,MOSI,MISO;I2C功能引…

Golang | Leetcode Golang题解之第455题分发饼干

题目&#xff1a; 题解&#xff1a; func findContentChildren(g []int, s []int) (ans int) {sort.Ints(g)sort.Ints(s)m, n : len(g), len(s)for i, j : 0, 0; i < m && j < n; i {for j < n && g[i] > s[j] {j}if j < n {ansj}}return }

设计模式-职责链模式

职责链模式&#xff08;Chain of Responsibility&#xff09;:通过给多个对象请求处理的机会&#xff0c;减少请求的发送者和接受者之间的耦合。将这些对象链接起来&#xff0c;在链中传递请求&#xff0c;知道有一个对象处理这个请求。 职责链模式就是把多个处理者连起来形成…

【Android】浅析六大设计原则

【Android】浅析六大设计原则 六大设计原则是软件开发中常用的设计原则&#xff0c;用来帮助开发者编写灵活、可维护、可扩展的代码。它们是面向对象设计&#xff08;OOD&#xff09;的核心&#xff0c;遵循这些原则能够避免代码中的常见问题&#xff0c;比如代码难以修改、难…

知识改变命运 数据结构【java对象的比较】

0&#xff1a;前言 在基本数据类型中&#xff0c;我们可以直接使用号比较是否相等&#xff0c;还记的学堆哪里时候&#xff0c;插入一个数据&#xff0c;就会与其他数据进行比较&#xff0c;当时我们传入的是Integer类型&#xff0c;在Integer类里面已经实现了compare。 如果…

YOLOv10改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互

一、本文介绍 本文记录的是基于FCAttention模块的YOLOv10目标检测改进方法研究。FCAttention是图像去雾领域新提出的模块能够有效整合全局和局部信息、合理分配权重的通道注意力机制&#xff0c;使得网络能够更准确地强调有用特征&#xff0c;抑制不太有用的特征&#xff0c;在…