【Python爬虫(12)】正则表达式：Python爬虫的进阶利刃

【Python爬虫】专栏简介：本专栏是 Python 爬虫领域的集大成之作，共 100 章节。从 Python 基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。

一、引言
二、正则表达式高级语法详解
- 2.1 分组（Grouping）
- 2.2 回溯引用（Backreferences）
- 2.3 零宽断言（Zero - width Assertions）
三、re 库的复杂文本模式匹配与数据提取实战
- 3.1 re 库基础回顾
- 3.2 复杂文本模式匹配案例
- 3.3 数据提取技巧与注意事项
四、正则表达式在爬虫中的性能优化策略
- 4.1 性能问题分析
- 4.2 优化方法介绍
- - 4.2.1 合理使用非贪婪模式
  - 4.2.2 减少不必要的分组
  - 4.2.3 编译正则表达式
- 4.3 性能优化前后对比测试
五、总结与展望

一、引言

在爬虫开发的广袤领域中，正则表达式犹如一把锋利且万能的瑞士军刀，发挥着举足轻重的作用。当我们运用爬虫程序从网页的海量信息里提取数据时，正则表达式能凭借其强大的模式匹配能力，精准定位并抽取出我们所需的数据片段。无论是网页的标题、链接、文本内容，还是图片、音频的地址等，正则表达式都能高效完成提取任务。

它不仅是数据提取的得力工具，在数据处理阶段同样表现出色。比如，在爬取到的数据中可能存在一些杂乱无章的格式、多余的符号或者不规范的字符，正则表达式可以轻松地对这些数据进行清洗和整理，使其符合我们后续分析和使用的要求。在验证数据格式的准确性，如判断邮箱地址、电话号码、身份证号码等是否合规时，正则表达式也能大显身手。

本文将深入探讨正则表达式的高级语法，包括分组、回溯引用、零宽断言等，详细介绍如何使用 Python 的 re 库进行复杂文本模式的匹配与数据提取，并着重研究如何处理正则表达式在爬虫应用中的性能优化问题，助力读者将正则表达式的运用提升到新的高度。

二、正则表达式 高级语法详解

2.1 分组（Grouping）

分组是正则表达式中非常实用的一个功能，它允许我们将一部分正则表达式组合成一个逻辑单元，以便对这部分内容进行整体操作，比如提取、重复匹配等。在正则表达式中，使用圆括号 () 来创建分组。例如，对于一个简单的匹配邮箱地址的正则表达式 (\w+)@(\w+).(\w+)，这里面就包含了三个分组：第一个分组 (\w+) 用于匹配邮箱地址中的用户名部分；第二个分组 (\w+) 匹配域名的主体部分；第三个分组 (\w+) 匹配域名的后缀部分。

在爬虫的实际应用中，分组能帮助我们更精准地提取网页中的数据。假设我们要从一个网页中提取所有 <a> 标签内的链接和文本内容，HTML 代码片段如下：

python"><html><body><a href="https://www.example.com">示例网站</a><a href="https://www.baidu.com">百度</a></body>
</html>

我们可以使用如下正则表达式及 Python 代码来实现：

python">import rehtml = """
<html><body><a href="https://www.example.com">示例网站</a><a href="https://www.baidu.com">百度</a></body>
</html>
"""pattern = re.compile(r'<a href="(.*?)">(.*?)</a>')
matches = pattern.findall(html)
for match in matches:link, text = matchprint(f"链接: {link}, 文本: {text}")

在这个例子中，(.*?) 就是两个分组，第一个分组用于捕获 <a> 标签的 href 属性值，第二个分组用于捕获 <a> 标签内的文本内容。通过 findall 方法返回的结果是一个列表，列表中的每个元素都是一个元组，元组的第一个元素是链接，第二个元素是文本内容。这样，我们就能够清晰地将所需的数据从网页中提取出来。

2.2 回溯引用（Backreferences）

回溯引用是指在正则表达式中引用之前定义的分组所匹配到的内容。它通过使用反斜杠 \ 加上分组的编号来实现，编号从 1 开始。例如，(\w+)\1 这个正则表达式中，\1 就是对第一个分组 (\w+) 的回溯引用，它表示匹配与第一个分组所匹配内容相同的字符串。这在处理一些具有重复结构的数据时非常有用。

在爬虫场景中，比如我们要处理一个包含 HTML 标签的文本，确保标签的开始和结束是匹配的。HTML 代码片段如下：

python"><div>这是一个div标签内的内容</div>
<span>这是一个span标签内的内容</span>
<div>这个div标签没有正确闭合

我们可以使用回溯引用的正则表达式来匹配正确闭合的标签：

python">import rehtml = """
<div>这是一个div标签内的内容</div>
<span>这是一个span标签内的内容</span>
<div>这个div标签没有正确闭合
"""pattern = re.compile(r'<(\w+)>.*?</\1>')
matches = pattern.findall(html)
for match in matches:print(f"匹配到正确闭合的标签: <{match}>...</{match}>")

在这个例子中，(\w+) 是第一个分组，用于匹配开始标签的名称，</\1> 中的 \1 引用了第一个分组所匹配的标签名称，这样就确保了结束标签与开始标签是一致的。通过这种方式，我们可以筛选出 HTML 中正确闭合的标签，避免处理错误格式的标签数据，提高数据提取的准确性。

2.3 零宽断言（Zero - width Assertions）

零宽断言是一种特殊的正则表达式语法，它用于指定一个位置，这个位置满足一定的条件，但并不匹配实际的字符，也就是所谓的 “零宽度”。零宽断言分为正向零宽断言和负向零宽断言，每种又分为先行断言和后发断言，总共四种类型：

正向零宽先行断言：x(?=y)，表示 x 后面跟随 y 时匹配 x，但不包含 y。例如，\d+(?=元) 可以匹配所有以 “元” 为单位的数字，如 “100 元” 中的 “100”。
正向零宽后发断言：(?<=y)x，表示 x 前面是 y 时匹配 x，但不包含 y。例如，(?<=第)\d+(?=页) 可以匹配 “第 10 页” 中的 “10”。
负向零宽先行断言：x(?!y)，表示 x 后面不跟随 y 时匹配 x。例如，\d+(?!00) 可以匹配所有不以 “00” 结尾的数字。
负向零宽后发断言：(?<!y)x，表示 x 前面不是 y 时匹配 x。例如，(?<!老)王可以匹配不是 “老王” 的 “王”，如 “小王” 中的 “王”。

在爬虫中，零宽断言常用于在复杂的文本中精准定位特定的数据。假设我们有一个网页，其中包含一些商品信息，格式如下：

python"><p>商品名称：苹果，价格：5元</p>
<p>商品名称：香蕉，价格：3元</p>

如果我们只想提取价格部分，且确保价格后面跟着 “元” 字，可以使用正向零宽先行断言：

python">import rehtml = """
<p>商品名称：苹果，价格：5元</p>
<p>商品名称：香蕉，价格：3元</p>
"""pattern = re.compile(r'\d+(?=元)')
matches = pattern.findall(html)
for match in matches:print(f"提取到的价格: {match}")

在这个例子中，\d+(?=元) 表示匹配一个或多个数字，并且这个数字后面必须紧跟着 “元” 字，但 “元” 字并不包含在匹配结果中。这样，我们就能够准确地从网页中提取出价格数据，而不会受到其他无关信息的干扰。

三、re 库的复杂文本模式匹配与数据提取实战

3.1 re 库基础回顾

在 Python 中，re 库是处理正则表达式的核心工具，它提供了一系列强大的函数来实现文本的匹配、搜索、替换等操作。在进行复杂文本模式匹配与数据提取之前，我们先来简要回顾一下 re 库的常用函数：

re.match(pattern, string, flags=0)：从字符串的起始位置开始尝试匹配正则表达式pattern，如果匹配成功，则返回一个Match对象；如果匹配失败，返回None。其中，string是待匹配的字符串，flags是一些可选的标志位，用于控制正则表达式的匹配方式，比如re.I表示忽略大小写匹配，re.M表示多行匹配模式等。例如：

python">import re
match = re.match(r'hello', 'hello world')
if match:print(match.group())  # 输出: hello

re.search(pattern, string, flags=0)：在整个字符串中搜索第一个匹配正则表达式pattern的位置，如果找到匹配项，则返回一个Match对象；否则返回None。与re.match不同的是，re.search并不要求从字符串的起始位置开始匹配。示例如下：

python">import re
search_result = re.search(r'world', 'hello world')
if search_result:print(search_result.group())  # 输出: world

re.findall(pattern, string, flags=0)：搜索整个字符串，以列表的形式返回所有匹配正则表达式pattern的子串。如果没有找到匹配的子串，则返回一个空列表。例如：

python">import re
findall_result = re.findall(r'\d+', 'abc123def456')
print(findall_result)  # 输出: ['123', '456']

这些基础函数是我们使用 re 库进行文本处理的基石，在复杂的爬虫场景中，它们与正则表达式的高级语法相结合，能够实现更加精准和高效的数据提取。

3.2 复杂文本模式匹配案例

接下来，我们通过一个实际的案例来展示如何使用 re 库结合正则表达式高级语法进行复杂文本模式的匹配与数据提取。假设我们要爬取一个新闻网站的网页内容，并从中提取新闻标题、发布时间和正文信息。以某新闻网站的 HTML 代码片段为例：

python"><!DOCTYPE html>
<html lang="zh-CN">
<head><meta charset="UTF-8"><title>示例新闻</title>
</head>
<body><div class="news-item"><h1 class="news-title">人工智能在医疗领域的新突破</h1><div class="news-meta"><span class="news-time">2024-10-01 10:00:00</span></div><div class="news-content"><p>近日，一项关于人工智能在医疗影像诊断方面的研究取得了重大突破。研究团队通过大量的数据训练，使得人工智能模型能够更准确地识别疾病特征，提高了诊断的准确率...</p></div></div>
</body>
</html>

我们可以使用如下 Python 代码和正则表达式来提取所需信息：

python">import rehtml = """
<!DOCTYPE html>
<html lang="zh-CN">
<head><meta charset="UTF-8"><title>示例新闻</title>
</head>
<body><div class="news-item"><h1 class="news-title">人工智能在医疗领域的新突破</h1><div class="news-meta"><span class="news-time">2024-10-01 10:00:00</span></div><div class="news-content"><p>近日，一项关于人工智能在医疗影像诊断方面的研究取得了重大突破。研究团队通过大量的数据训练，使得人工智能模型能够更准确地识别疾病特征，提高了诊断的准确率...</p></div></div>
</body>
</html>
"""# 提取新闻标题
title_pattern = re.compile(r'<h1 class="news-title">(.*?)</h1>')
title_match = title_pattern.search(html)
if title_match:title = title_match.group(1)print(f"新闻标题: {title}")# 提取发布时间
time_pattern = re.compile(r'<span class="news-time">(.*?)</span>')
time_match = time_pattern.search(html)
if time_match:time = time_match.group(1)print(f"发布时间: {time}")# 提取正文
content_pattern = re.compile(r'<div class="news-content">.*?<p>(.*?)</p>', re.S)
content_match = content_pattern.search(html)
if content_match:content = content_match.group(1)print(f"正文: {content}")

在上述代码中，我们使用了re.compile函数将正则表达式编译成Pattern对象，这样可以提高匹配效率，尤其是在多次使用相同正则表达式的情况下。对于新闻标题的提取，我们使用了<h1 class=“news-title”>(.*?)</h1>这个正则表达式，其中(.*?)是一个非贪婪分组，用于捕获<h1 class=“news-title”>和</h1>标签之间的内容。发布时间的提取类似，使用<span class=“news-time”>(.*?)来捕获时间信息。而在提取正文时，由于正文内容可能包含换行符等特殊字符，我们使用了re.S标志位，它使得.可以匹配包括换行符在内的任意字符，正则表达式<div class=“news-content”>.*?<p>(.*?)</p>能够准确地提取出<div class=“news-content”>标签内<p>标签之间的正文内容。

3.3 数据提取技巧与注意事项

在使用 re 库进行爬虫数据提取时，有一些实用的技巧和需要注意的事项：

处理特殊字符：在正则表达式中，一些字符具有特殊含义，如*、+、?、|、(、)、[、]、{、}等。如果要匹配这些字符本身，需要使用反斜杠\进行转义。例如，要匹配字符串中的(abc)，正则表达式应为$abc$。
转义字符：除了特殊字符的转义，对于一些特殊的字符序列，如换行符\n、制表符\t等，在正则表达式中也需要正确表示。在 Python 的 re 库中，使用原生字符串（即在字符串前加上r前缀）可以避免额外的转义操作，使正则表达式更清晰易读。例如，r’\n’表示换行符，而’\n’在普通字符串中需要写成’\\n’。
非贪婪匹配与贪婪匹配：正则表达式默认采用贪婪匹配模式，即尽可能多地匹配字符。但在很多情况下，我们需要非贪婪匹配，也就是尽可能少地匹配字符。通过在量词（如*、+、?、{n,m}等）后面加上?可以实现非贪婪匹配。例如，对于字符串aaaa，a+会匹配整个aaaa（贪婪匹配），而a+?会依次匹配出每个a（非贪婪匹配）。
匹配边界：合理利用正则表达式的边界匹配符，如^（匹配字符串开头）、$（匹配字符串结尾）、\b（匹配单词边界）等，可以更精准地定位要匹配的内容。例如，\bhello\b可以确保只匹配独立的单词 “hello”，而不会匹配 “helloworld” 中的 “hello”。
错误处理：在实际爬虫过程中，网页结构可能会发生变化，或者数据格式不符合预期，这就需要进行适当的错误处理。例如，在使用re.search或re.findall等函数提取数据后，要检查返回结果是否为None或空列表，以避免程序因数据缺失而报错。可以使用如下代码进行简单的错误处理：

python">match = re.search(pattern, html)
if match:data = match.group(1)
else:data = ""  # 或进行其他默认值设置或错误提示

通过掌握这些技巧和注意事项，我们能够在爬虫中更灵活、准确地使用 re 库进行数据提取，提高爬虫程序的稳定性和可靠性。

四、正则表达式在爬虫中的性能优化策略

4.1 性能问题分析

在爬虫应用中，正则表达式虽然功能强大，但如果使用不当，很容易引发性能问题。其中，匹配时间过长是一个常见的问题。当我们使用复杂的正则表达式去匹配大规模的网页文本时，正则引擎需要对文本中的每个字符进行逐一检查和匹配，这会消耗大量的时间。例如，在一个包含大量新闻文章的网页中，如果使用一个包含多个嵌套量词和复杂分组的正则表达式来提取文章内容，可能会导致匹配过程变得异常缓慢，甚至在处理大型网页时出现程序卡顿或无响应的情况。

资源消耗过大也是不容忽视的性能问题。正则表达式的匹配过程涉及到大量的内存操作，包括字符的读取、模式的解析以及匹配结果的存储等。如果在爬虫中频繁使用正则表达式，且每次匹配的文本量较大，就会导致内存占用不断增加，可能会引发内存溢出等错误，影响爬虫程序的稳定性和运行效率。此外，复杂的正则表达式在编译和执行过程中也会占用较多的 CPU 资源，降低系统的整体性能。

4.2 优化方法介绍

4.2.1 合理使用非贪婪模式

在正则表达式中，贪婪模式是默认的匹配方式，它会尽可能多地匹配字符，直到整个表达式能够匹配为止。例如，对于正则表达式a.*b，在匹配字符串axxxbxxxab时，它会匹配从第一个a到最后一个b的整个部分axxxbxxxab。而在爬虫提取数据时，这种贪婪匹配可能会导致提取到的数据不准确或包含多余的内容。

非贪婪模式则通过在量词后面加上一个问号?来启用，如*?、+?或??。在非贪婪模式下，正则表达式会尽可能少地匹配字符，只要这样的匹配能够使整个表达式得到满足。以提取 HTML 标签内的文本为例，假设我们有以下 HTML 代码：

python"><div>内容1</div><div>内容2</div>

如果使用贪婪模式的正则表达式<div>.*</div>，它会匹配整个<div>内容1</div><div>内容2</div>，而我们通常希望分别提取每个<div>标签内的内容。此时，使用非贪婪模式的正则表达式<div>.*?</div>，就可以正确地匹配到<div>内容1</div>和<div>内容2</div>这两个部分，从而准确地提取出 “内容 1” 和 “内容 2”。通过合理使用非贪婪模式，能够减少不必要的字符匹配，提高匹配效率，尤其是在处理包含重复结构的文本时，效果更为显著。

4.2.2 减少不必要的分组

分组在正则表达式中用于将一部分正则表达式组合成一个逻辑单元，以便进行提取、重复匹配等操作。然而，过多的分组会对性能产生负面影响。因为每个分组都需要额外的内存来存储匹配结果，并且在匹配过程中，正则引擎需要对每个分组进行单独的处理和记录，这会增加计算量和时间开销。

在爬虫场景中，我们应尽量精简分组。例如，在匹配一个简单的日期格式 “YYYY-MM-DD” 时，如果使用(\d{4})-(\d{2})-(\d{2})这样包含三个分组的正则表达式，虽然可以分别提取出年、月、日，但如果我们只是需要验证日期格式的正确性，并不需要提取具体的年、月、日部分，那么可以使用\d{4}-\d{2}-\d{2}这样不包含分组的正则表达式，这样可以减少不必要的内存占用和计算开销，提高正则表达式的执行效率。

4.2.3 编译正则表达式

在 Python 中，使用re.compile函数可以将正则表达式编译成Pattern对象。编译后的正则表达式在多次使用时，能够提高执行效率。这是因为编译过程会将正则表达式转换为一种更高效的内部表示形式，当后续进行匹配操作时，无需再次解析和编译正则表达式，直接使用已经编译好的Pattern对象进行匹配即可。

在爬虫中，如果我们需要频繁使用相同的正则表达式来提取数据，例如在一个循环中不断匹配网页中的链接，使用编译后的正则表达式可以显著提升性能。示例代码如下：

python">import re# 编译正则表达式
pattern = re.compile(r'href="(.*?)"')html_list = ["<a href='https://www.example.com'>示例1</a>", "<a href='https://www.baidu.com'>示例2</a>", "<a href='https://www.google.com'>示例3</a>"]
for html in html_list:matches = pattern.findall(html)for match in matches:print(f"提取到的链接: {match}")

在这个例子中，re.compile(r’href=“(.*?)”‘)将正则表达式编译成Pattern对象pattern，然后在循环中多次使用pattern.findall方法进行匹配。相比每次都直接使用re.findall(r’href=“(.*?)”’, html)，编译后的方式能够避免重复的编译过程，节省时间，提高爬虫的运行效率。

4.3 性能优化前后对比测试

为了直观地展示性能优化的效果，我们通过一个具体的爬虫案例来进行对比测试。假设我们要爬取一个包含大量商品信息的网页，并使用正则表达式提取商品的价格信息。

优化前，我们使用贪婪模式的正则表达式且未进行编译，代码如下：

python">import re
import timestart_time = time.time()
html = "<div class='product'>价格：100元</div><div class='product'>价格：200元</div><div class='product'>价格：300元</div>" * 10000
pattern = r'价格：(\d+)元'
matches = re.findall(pattern, html)
for match in matches:print(f"提取到的价格: {match}")
end_time = time.time()
print(f"优化前运行时间: {end_time - start_time} 秒")

优化后，我们使用非贪婪模式的正则表达式并进行编译，代码如下：

python">import re
import timestart_time = time.time()
html = "<div class='product'>价格：100元</div><div class='product'>价格：200元</div><div class='product'>价格：300元</div>" * 10000
pattern = re.compile(r'价格：(\d+?)元')
matches = pattern.findall(html)
for match in matches:print(f"提取到的价格: {match}")
end_time = time.time()
print(f"优化后运行时间: {end_time - start_time} 秒")

通过实际运行这两段代码，我们可以得到优化前后的运行时间。在这个简单的测试案例中，优化后的代码运行时间明显缩短，这表明通过合理使用非贪婪模式和编译正则表达式，能够有效地提高正则表达式在爬虫中的性能，减少数据提取的时间，提升爬虫程序的整体效率。同时，在实际应用中，还可以结合其他性能优化策略，如减少不必要的网络请求、优化数据存储方式等，进一步提升爬虫的性能和稳定性。

五、总结与展望

正则表达式作为爬虫开发中的关键技术，其高级应用涵盖了丰富的语法和实用的技巧。通过深入理解分组、回溯引用和零宽断言等高级语法，我们能够更精准地定位和提取复杂文本中的数据，满足多样化的数据提取需求。在使用 Python 的 re 库进行复杂文本模式匹配与数据提取时，掌握 re 库的常用函数以及数据提取的技巧和注意事项，能够确保我们高效、准确地从网页中获取所需数据。同时，针对正则表达式在爬虫中可能出现的性能问题，采取合理使用非贪婪模式、减少不必要的分组以及编译正则表达式等优化策略，可以显著提升爬虫程序的运行效率和稳定性。

随着互联网技术的不断发展，网页结构和数据格式日益复杂多样，对爬虫技术的要求也越来越高。未来，正则表达式在爬虫领域将面临更多的挑战和机遇。在更复杂的爬虫场景中，如处理动态网页、对抗更高级的反爬虫机制等，正则表达式有望与其他技术（如 JavaScript 逆向、人工智能辅助解析等）相结合，发挥更大的作用。我们也需要不断探索和研究新的正则表达式应用方法和优化策略，以适应不断变化的爬虫环境，为数据采集和分析提供更强大的支持。