Python基础12-爬虫抓取网页内容

embedded/2024/9/22 21:14:47/

在本文中,我们将学习如何使用 Python 的 requestsBeautifulSoup 库进行网页抓取。我们将从基本的网页请求开始,逐步扩展到更高级的主题,如处理分页、AJAX 请求、正则表达式和异步抓取。

1. 使用 requests 获取网页

要检索网页的内容,我们可以使用 requests 库。以下是一个简单的示例:

python">import requestsurl = 'https://example.com'
response = requests.get(url)
html = response.text

2. 使用 BeautifulSoup 解析 HTML

要解析 HTML 并提取数据,我们可以使用 BeautifulSoup 库。以下是一个简单的示例:

python">from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())  # 美观地打印 HTML

3. HTML 树导航

要使用标签查找元素,我们可以使用 BeautifulSoup 的方法。以下是一个简单的示例:

python">title = soup.title.text  # 获取页面标题
headings = soup.find_all('h1')  # 列出所有 <h1> 标签

4. 使用 CSS 选择器

要使用 CSS 选择器选择元素,我们可以使用 BeautifulSoupselect 方法。以下是一个简单的示例:

python">articles = soup.select('div.article')  # 所有具有类 'article' 的 <div> 元素

5. 从标签中提取数据

要从 HTML 元素中提取文本和属性,我们可以使用 BeautifulSoup 的方法。以下是一个简单的示例:

python">for article in articles:title = article.h2.text  # 获取 <h2> 标签内的文本link = article.a['href']  # 获取 <a> 标签的 'href' 属性print(title, link)

6. 处理相对 URL

要将相对 URL 转换为绝对 URL,我们可以使用 urllib.parse 库的 urljoin 函数。以下是一个简单的示例:

python">from urllib.parse import urljoinabsolute_urls = [urljoin(url, link) for link in relative_urls]

7. 处理分页

要跨多个页面抓取内容,我们可以使用循环。以下是一个简单的示例:

python">base_url = "https://example.com/page/"
for page in range(1, 6):  # 对 5 个页面进行循环page_url = base_url + str(page)response = requests.get(page_url)# 处理每个页面的内容

8. 处理 AJAX 请求

要抓取 AJAX 请求加载的数据,我们可以找到 AJAX 请求的 URL(使用浏览器的开发者工具)并获取它。以下是一个简单的示例:

python">ajax_url = 'https://example.com/ajax_endpoint'
data = requests.get(ajax_url).json()  # 假设响应为 JSON

9. 在网页抓取中使用正则表达式

要使用正则表达式提取数据,我们可以使用 re 库。以下是一个简单的示例:

python">import reemails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', html)

10. 尊重 robots.txt

要检查 robots.txt 的抓取权限,我们可以使用 urllib.robotparser 库。以下是一个简单的示例:

python">from urllib.robotparser import RobotFileParserrp = RobotFileParser()
rp.set_url('https://example.com/robots.txt')
rp.read()
can_scrape = rp.can_fetch('*', url)

11. 使用会话和 Cookie

要维护会话并处理 cookie,我们可以使用 requests 库的 Session 类。以下是一个简单的示例:

python">session = requests.Session()
session.get('https://example.com/login')
session.cookies.set('key', 'value')  # 如果需要,设置 cookie
response = session.get('https://example.com/protected_page')

12. 使用浏览器自动化进行抓取(selenium 库)

要抓取 JavaScript 呈现的动态内容,我们可以使用 selenium 库。以下是一个简单的示例:

python">from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://example.com')
content = browser.page_source
# 使用 BeautifulSoup 等解析和提取数据
browser.quit()

13. 网页抓取中的错误处理

要处理错误和异常,我们可以使用 try-except 语句。以下是一个简单的示例:

python">try:response = requests.get(url, timeout=5)response.raise_for_status()  # 为错误状态码引发错误
except requests.exceptions.RequestException as e:print(f"Error: {e}")

14. 异步网页抓取

要异步抓取网站以加快数据检索速度,我们可以使用 aiohttp 库。以下是一个简单的示例:

python">import aiohttp
import asyncioasync def fetch(url):async with aiohttp.ClientSession() as session:async with session.get(url) as response:return await response.text()urls = ['https://example.com/page1', 'https://example.com/page2']
loop = asyncio.get_event_loop()
pages = loop.run_until_complete(asyncio.gather(*(fetch(url) for url in urls)))

15. 数据存储(CSV、数据库)

要将抓取的数据存储在 CSV 文件或数据库中,我们可以使用 csv 库。以下是一个简单的示例:

python">import csvwith open('output.csv', 'w', newline='') as file:writer = csv.writer(file)writer.writerow(['Title', 'URL'])for article in articles:writer.writerow([article['title'], article['url']])

通过学习这些技巧,您将能够使用 Python 进行高效的网页抓取。请确保遵循网站的 robots.txt 规则并尊重网站所有者的意愿。


http://www.ppmy.cn/embedded/20330.html

相关文章

使用Unity扫描场景内的二维码,使用插件ZXing

使用Unity扫描场景内的二维码&#xff0c;使用插件ZXing 使用Unity扫描场景内的二维码&#xff0c;ZXing可能没有提供场景内扫描的方法&#xff0c;只有调用真实摄像机扫描二维码的方法。 实现的原理是&#xff1a;在摄像机上添加脚本&#xff0c;发射射线&#xff0c;当射线打…

PeLK: 大卷积核强势回归,高达101 × 101,提出了外围卷积

paper&#xff1a;https://arxiv.org/pdf/2403.07589 code&#xff1a;暂无 目录 0. 摘要 1. 引言 2. 相关工作 2.1. Large Kernel Convolutional Networks 2.2. Peripheral Vision for Machine Learning 3. 密集卷积优于条纹卷积 4. 参数高效的大核卷积神经网络 4.1. …

【java数据结构之八大排序(上)-直接插入排序,希尔排序,选择排序,堆排序,向下调整(大根堆,小根堆)等知识详解】

&#x1f308;个人主页&#xff1a;努力学编程’ ⛅个人推荐&#xff1a;基于java提供的ArrayList实现的扑克牌游戏 |C贪吃蛇详解 ⚡学好数据结构&#xff0c;刷题刻不容缓&#xff1a;点击一起刷题 &#x1f319;心灵鸡汤&#xff1a;总有人要赢&#xff0c;为什么不能是我呢 …

前端框架编译器之模板编译

编译原理概述 编译原理&#xff1a;是计算机科学的一个分支&#xff0c;研究如何将 高级程序语言 转换为 计算机可执行的目标代码 的技术和理论。 高级程序语言&#xff1a;Python、Java、JavaScript、TypeScript、C、C、Go 等。计算机可执行的目标代码&#xff1a;机器码、汇…

bayesplot|分享一个可视化贝叶斯模型的R包

1.bayesplot介绍 该包主要用于贝叶斯模型的可视化分析&#xff0c;提供了一系列工具来帮助评估、理解和诊断贝叶斯模型。这个包特别适用于与 Stan 以及其他提供 MCMC 样本的软件如 JAGS 和 BUGS 的模型输出。 后验分布图:包括密度图、直方图和区间图&#xff0c;用于展示模型…

vscode连接远程Linux服务器时,没有权限新建文件夹或者文件

参考链接&#xff1a; VS code 保存或新建文件没有权限的问题 vscode连接远程Linux服务器时&#xff0c;没有权限新建文件夹或者文件&#xff1a; 用一条命令解决&#xff1a; sudo chown -R myuser /path/to/foldermyuser是当前用户名&#xff0c; /path/to/folder是 需要操…

【微磁学:扒一扒mumax3的内核】LLG方程的多种求解方法

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、LLG方程和微磁学模拟之间的联系二、LLG方程的形式三、微磁学模拟中的LLG方程求解部分四、代码部分五、总结 前言 最近我很想把现微磁学模拟器的内容拆开看…

python在Django中使用django-mptt库来实现无限级树结构非常直观和方便

在Django中使用django-mptt库来实现无限级树结构非常直观和方便。django-mptt(Modified Preorder Tree Traversal)是一个用于Django模型的树形结构字段的库,它允许你通过递归的方式轻松地构建和操作树形结构。 下面是一个使用django-mptt和MySQL数据库实现无限级树结构的基…