Python基础12-爬虫抓取网页内容

ops/2024/10/22 2:59:18/

在本文中,我们将学习如何使用 Python 的 requestsBeautifulSoup 库进行网页抓取。我们将从基本的网页请求开始,逐步扩展到更高级的主题,如处理分页、AJAX 请求、正则表达式和异步抓取。

1. 使用 requests 获取网页

要检索网页的内容,我们可以使用 requests 库。以下是一个简单的示例:

python">import requestsurl = 'https://example.com'
response = requests.get(url)
html = response.text

2. 使用 BeautifulSoup 解析 HTML

要解析 HTML 并提取数据,我们可以使用 BeautifulSoup 库。以下是一个简单的示例:

python">from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())  # 美观地打印 HTML

3. HTML 树导航

要使用标签查找元素,我们可以使用 BeautifulSoup 的方法。以下是一个简单的示例:

python">title = soup.title.text  # 获取页面标题
headings = soup.find_all('h1')  # 列出所有 <h1> 标签

4. 使用 CSS 选择器

要使用 CSS 选择器选择元素,我们可以使用 BeautifulSoupselect 方法。以下是一个简单的示例:

python">articles = soup.select('div.article')  # 所有具有类 'article' 的 <div> 元素

5. 从标签中提取数据

要从 HTML 元素中提取文本和属性,我们可以使用 BeautifulSoup 的方法。以下是一个简单的示例:

python">for article in articles:title = article.h2.text  # 获取 <h2> 标签内的文本link = article.a['href']  # 获取 <a> 标签的 'href' 属性print(title, link)

6. 处理相对 URL

要将相对 URL 转换为绝对 URL,我们可以使用 urllib.parse 库的 urljoin 函数。以下是一个简单的示例:

python">from urllib.parse import urljoinabsolute_urls = [urljoin(url, link) for link in relative_urls]

7. 处理分页

要跨多个页面抓取内容,我们可以使用循环。以下是一个简单的示例:

python">base_url = "https://example.com/page/"
for page in range(1, 6):  # 对 5 个页面进行循环page_url = base_url + str(page)response = requests.get(page_url)# 处理每个页面的内容

8. 处理 AJAX 请求

要抓取 AJAX 请求加载的数据,我们可以找到 AJAX 请求的 URL(使用浏览器的开发者工具)并获取它。以下是一个简单的示例:

python">ajax_url = 'https://example.com/ajax_endpoint'
data = requests.get(ajax_url).json()  # 假设响应为 JSON

9. 在网页抓取中使用正则表达式

要使用正则表达式提取数据,我们可以使用 re 库。以下是一个简单的示例:

python">import reemails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', html)

10. 尊重 robots.txt

要检查 robots.txt 的抓取权限,我们可以使用 urllib.robotparser 库。以下是一个简单的示例:

python">from urllib.robotparser import RobotFileParserrp = RobotFileParser()
rp.set_url('https://example.com/robots.txt')
rp.read()
can_scrape = rp.can_fetch('*', url)

11. 使用会话和 Cookie

要维护会话并处理 cookie,我们可以使用 requests 库的 Session 类。以下是一个简单的示例:

python">session = requests.Session()
session.get('https://example.com/login')
session.cookies.set('key', 'value')  # 如果需要,设置 cookie
response = session.get('https://example.com/protected_page')

12. 使用浏览器自动化进行抓取(selenium 库)

要抓取 JavaScript 呈现的动态内容,我们可以使用 selenium 库。以下是一个简单的示例:

python">from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://example.com')
content = browser.page_source
# 使用 BeautifulSoup 等解析和提取数据
browser.quit()

13. 网页抓取中的错误处理

要处理错误和异常,我们可以使用 try-except 语句。以下是一个简单的示例:

python">try:response = requests.get(url, timeout=5)response.raise_for_status()  # 为错误状态码引发错误
except requests.exceptions.RequestException as e:print(f"Error: {e}")

14. 异步网页抓取

要异步抓取网站以加快数据检索速度,我们可以使用 aiohttp 库。以下是一个简单的示例:

python">import aiohttp
import asyncioasync def fetch(url):async with aiohttp.ClientSession() as session:async with session.get(url) as response:return await response.text()urls = ['https://example.com/page1', 'https://example.com/page2']
loop = asyncio.get_event_loop()
pages = loop.run_until_complete(asyncio.gather(*(fetch(url) for url in urls)))

15. 数据存储(CSV、数据库)

要将抓取的数据存储在 CSV 文件或数据库中,我们可以使用 csv 库。以下是一个简单的示例:

python">import csvwith open('output.csv', 'w', newline='') as file:writer = csv.writer(file)writer.writerow(['Title', 'URL'])for article in articles:writer.writerow([article['title'], article['url']])

通过学习这些技巧,您将能够使用 Python 进行高效的网页抓取。请确保遵循网站的 robots.txt 规则并尊重网站所有者的意愿。


http://www.ppmy.cn/ops/27107.html

相关文章

MySQL数据库安装——zip压缩包形式

安装压缩包zip形式的 MySQL 8数据库 一 、先进入官网下载 https://dev.mysql.com/downloads/mysql/ 二、解压到某个文件夹 我解压到了D:\mysql\mysql8 下面 然后在这个文件夹下手动创建 my.ini 文件和 data 文件夹 my.ini 内容如下&#xff1a; 注意 basedir 和 datadi…

全网萌萌可爱表情包大全,GIF动图与静态图表情包

一、素材描述 这是一套动静态表情包素材&#xff0c;来自全网搜集整理&#xff0c;可能是目前最全的了&#xff0c;共有大约17000款表情包&#xff0c;动态GIF表情包静态图片表情包。本套表情包素材&#xff0c;大小3.48G&#xff0c;1个压缩文件。 二、素材目录 &#xff0…

LibTorch入坑记

一、环境 win10 vs2022 cmake最新版 cuda 11.8 二、LibTorch下载 PyTorchhttps://pytorch.org/ 注意&#xff1a;我选择了preview版本。因为最新的MKL目前已经不兼容libtorch230了。 三、LibTorch使用 libtorch解压后如下图&#xff1a; 最核心的是include和lib这两个…

服务器数据恢复—服务器重装系统导致XFS分区丢失的数据恢复案例

服务器数据恢复环境&#xff1a; 一台服务器MD1200磁盘柜&#xff0c;通过raid卡将15块磁盘组建成一组raid5磁盘阵列。raid5阵列分配了2个lun&#xff0c;操作系统层面对lun进行分区&#xff1a;1个分区采用LVM扩容方式加入到了root_lv中&#xff0c;其余分区格式化为XFS文件系…

利用大型语言模型提升数字产品创新:提示,微调,检索增强生成和代理的应用

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

前端到全栈进阶之“前端框架”

从前端入门到全栈-系列介绍 你会学到什么&#xff1f; 可能学不到什么东西&#xff0c;该系列是作者本人工作和学习积累&#xff0c;用于复习 系列介绍 现在的 Web 前端已经离不开 Node.js&#xff0c;我们广泛使用的 Babel、Webpack、工程化都是基于 Node 的&#xff0c;各…

GPT3 终极指南(二)

原文&#xff1a;zh.annas-archive.org/md5/6de8906c86a2711a5a84c839bec7e073 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 第五章&#xff1a;GPT-3 作为企业创新的下一步 当一个新的创新或技术转变发生时&#xff0c;大公司通常是最后一个采纳的。它们的等级结构…

C++相关概念和易错语法(10)(定位new、模板)

1.定位new 我们使用类来实例化对象&#xff0c;开辟空间的时候会自动去调用它的构造函数。但在那篇博客我就特意强调过&#xff0c;使用a.A()的方式是错误的&#xff0c;A()根本不会被识别为一个构造函数&#xff0c;而会被识别为A类型。因此我们要注意最好在实例化对象&#…