【Python】爬虫

embedded/2024/10/23 6:04:07/

Python爬虫是一种自动化下载网页内容的程序。以下是一个简单的Python爬虫示例,使用requests库获取网页,并用BeautifulSoup解析网页。

首先,你需要安装必要的库:

pip install requests
pip install beautifulsoup4

以下是一个简单的Python爬虫示例:

import requests
from bs4 import BeautifulSoup# 目标URL
url = 'https://example.com'# 发送HTTP请求
response = requests.get(url)# 检查请求是否成功
if response.status_code == 200:# 使用BeautifulSoup解析网页内容soup = BeautifulSoup(response.text, 'html.parser')# 提取页面标题print(soup.title.text)# 提取所有段落for p in soup.find_all('p'):print(p.text)
else:print(f'Error: {response.status_code}')

对于反爬虫机制,常见的有User-Agent检查、IP封禁等。应对策略包括使用代理、轮换User-Agent、减少请求频率等。

# 使用代理
proxies = {'http': 'http://10.10.1.10:3128','https': 'http://10.10.1.10:3128',
}
response = requests.get(url, proxies=proxies)# 轮换User-Agent
headers = {'User-Agent': 'My-App/0.1 Python/3.7.4',
}
response = requests.get(url, headers=headers)# 减少请求频率
import time
while True:response = requests.get(url)if response.status_code == 200:# 处理响应内容breakelse:# 等待一段时间后重试time.sleep(60)  # 等待60秒

为了确保爬虫的道德和合法性,应遵守目标网站的robots.txt规则,并在爬取数据时尊重网站的维护者和版权方的利益。


http://www.ppmy.cn/embedded/129746.html

相关文章

探究Redis

为什么要用Redis Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。 Redis是一种常见的缓存技术,通常用来改善网站性能。 常用的缓存技术有Redis、Memcache,能力对比如…

CDL数据传输工具

什么是CDL CDL(全称Change Data Loader)是一个基于Kafka Connect框架的实时数据集成服务。 CDL服务能够从各种OLTP数据库中捕获数据库的Data Change事件,并推送到kafka,再由sink connector推送到大数据生态系统中。 CDL目前支持…

Ubuntu 20.04上安装Docker-CE社区版

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「storm…

[week1] newstar ctf ezAndroidStudy

本题主要考查对 APK 基本结构的掌握 查看 AndroidManifest.xml 可以发现 activity 只有 Homo 和 MainActivity 我们用 Jadx 打开 work.pangbai.ezandroidstudy.Homo 就可以获得 flag1 打开 resources.arsc/res/value/string.xml 搜索 flag2 即可 按描述到 /layout/activity_ma…

k8s 部署 mysql 故障恢复记录

k8s 集群 用 helm 部署 mariadb (https://charts.bitnami.com/bitnami) https://github.com/bitnami/charts/tree/main/bitnami/mariadb 采用了主从部署 default mariadb-primary-0 1/1 Running 0 10m 10.224.166.150 node1 default …

习题|曲线平面曲线

目录 T1T2T3 T1 (1)设 E 3 E^3 E3中曲线 C C C的所有切线过一个定点,证明 C C C是直线. (2) 证明:所有主法线过定点的曲线是圆. 证明:(1) 设 P 0 P_0 P0​是弧长参数曲线 C : r r ( s ) C:\mathbf{r}\mathbf{r}(s) C:rr(s)的切线所过的定点…

ChatGLM-6B和Prompt搭建专业领域知识问答机器人应用方案(含完整代码)

目录 ChatGLM-6B部署 领域知识数据准备 领域知识数据读取 知识相关性匹配 Prompt提示工程 领域知识问答 完整代码 本文基于ChatGLM-6B大模型和Pompt提示工程搭建医疗领域知识问答机器人为例。 ChatGLM-6B部署 首先需要部署好ChatGLM-6B,参考 ChatGLM-6B中英双…

T2彩色图片分类

导入 keras中的数据集。 datasets是数据集,用来加载tensorflow的一些数据集 layers:kersa中的核心模块,用来构建神经网络模型的各种层 models:用来管理模型的模块。这边数据集的导出花了好长的时间。中间断了一下,后来无法找到文件,去了数据…