Python 正则表达式基础教程：简单匹配

正则表达式（Regular Expression）是一种用于匹配字符串模式的强大工具。在 Python 中，正则表达式广泛用于数据处理、文本分析等任务，能够帮助我们快速找到或替换特定的字符或字符串。对于新手而言，掌握正则表达式的基本用法会让许多数据处理工作变得更轻松。

本文将详细介绍 Python 正则表达式的基本概念、常用语法和操作技巧，并提供通俗易懂的代码示例，帮助您快速掌握简单的正则匹配操作。

在这里插入图片描述

什么是正则表达式？

正则表达式是一种描述字符模式的字符串，通过使用各种符号和规则，可以构建出不同的字符匹配逻辑。正则表达式的主要用途是匹配、查找、替换或分割文本中的特定内容。

例如，我们可以使用正则表达式来找到所有以 “a” 开头、以 “z” 结尾的单词，或者匹配所有包含邮箱地址的文本。

Python 中使用正则表达式

在 Python 中，我们使用内置的 re 模块来处理正则表达式操作。re 模块提供了丰富的函数和方法，可以帮助我们进行灵活的字符串匹配操作。下面是 re 模块的常用方法：

re.match()：用于检测字符串是否符合正则表达式的开头部分。
re.search()：用于在字符串中查找第一个符合正则表达式的部分。
re.findall()：用于查找字符串中所有符合正则表达式的部分，并返回一个列表。
re.sub()：用于替换字符串中符合正则表达式的部分。

正则表达式的基本语法

在学习正则表达式的基本操作之前，了解一些常用的符号是很有帮助的。以下是一些常见的正则表达式符号及其含义：

符号	描述
`.`	匹配任意一个字符（除换行符）
`^`	匹配字符串的开头
`$`	匹配字符串的结尾
`*`	匹配前面的字符 0 次或多次
`+`	匹配前面的字符 1 次或多次
`?`	匹配前面的字符 0 次或 1 次
`{n,m}`	匹配前面的字符 n 到 m 次
`[]`	匹配字符集中的任意字符
`	`
`()`	分组，用于提取匹配的子字符串

示例 1：基本匹配

假设我们要匹配以 “hello” 开头的字符串，可以使用 ^hello：

python">import retext = "hello world"
match = re.match(r"^hello", text)
if match:print("匹配成功！")
else:print("匹配失败。")

常用的匹配操作

接下来，我们将通过几个常见的匹配操作示例来了解正则表达式的实际应用。

1. 匹配电话号码

假设我们想匹配格式为 “123-456-7890” 的电话号码，可以使用以下正则表达式：\d{3}-\d{3}-\d{4}。其中，\d 表示匹配任意一个数字，{n} 表示匹配前一个字符的次数。

python">import retext = "我的电话号码是 123-456-7890。"
pattern = r"\d{3}-\d{3}-\d{4}"
match = re.search(pattern, text)
if match:print("找到电话号码：", match.group())
else:print("未找到电话号码。")

输出：

找到电话号码： 123-456-7890

2. 匹配邮箱地址

邮箱地址通常由用户名、“@” 符号和域名组成，例如 example@example.com。可以用以下正则表达式来匹配邮箱地址：

python">import retext = "请联系邮箱 example@example.com"
pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
matches = re.findall(pattern, text)
print("找到的邮箱地址：", matches)

输出：

找到的邮箱地址： ['example@example.com']

3. 匹配网址

假设我们想匹配 http 或 https 开头的网页地址，可以使用正则表达式 https?://[^\s]+：

python">import retext = "访问我们的网站：https://www.example.com。"
pattern = r"https?://[^\s]+"
matches = re.findall(pattern, text)
print("找到的网址：", matches)

输出：

找到的网址： ['https://www.example.com']

4. 匹配特定格式的日期

假设我们想匹配格式为 “YYYY-MM-DD” 的日期，可以使用以下正则表达式：\d{4}-\d{2}-\d{2}。

python">import retext = "今天的日期是 2023-11-05。"
pattern = r"\d{4}-\d{2}-\d{2}"
match = re.search(pattern, text)
if match:print("找到日期：", match.group())
else:print("未找到日期。")

输出：

找到日期： 2023-11-05

进阶匹配：使用分组

分组可以帮助我们提取出匹配结果中的某些部分。分组通过在正则表达式中使用括号 () 来实现。

示例：匹配带有分组的电话号码

假设我们要匹配电话号码，并分别提取出区号和电话号码。可以使用带有分组的正则表达式 (\d{3})-(\d{3}-\d{4})。

python">import retext = "我的电话号码是 123-456-7890。"
pattern = r"(\d{3})-(\d{3}-\d{4})"
match = re.search(pattern, text)
if match:print("区号：", match.group(1))print("电话号码：", match.group(2))

输出：

区号： 123
电话号码： 456-7890

替换操作：`re.sub()`

在实际应用中，我们经常需要替换符合正则表达式的内容。re.sub() 函数可以帮助我们替换匹配的部分。

示例：隐藏电话号码

假设我们要将文本中的电话号码隐藏为 “XXX-XXX-XXXX” 格式。

python">import retext = "我的电话号码是 123-456-7890。"
pattern = r"\d{3}-\d{3}-\d{4}"
result = re.sub(pattern, "XXX-XXX-XXXX", text)
print(result)

输出：

我的电话号码是 XXX-XXX-XXXX。

使用正则表达式进行分割：`re.split()`

re.split() 可以帮助我们按正则表达式指定的字符或字符串来分割文本。假设我们想用逗号、分号或空格来分割一个字符串，可以使用以下代码：

python">import retext = "apple, banana; orange  kiwi"
pattern = r"[,;\s]+"
result = re.split(pattern, text)
print("分割结果：", result)

输出：

分割结果： ['apple', 'banana', 'orange', 'kiwi']

练习：匹配和提取网址中的域名

假设我们想从网址 https://www.example.com 中提取出域名 example.com。可以使用正则表达式 https?://(?:www\.)?([^/]+)：

python">import reurl = "https://www.example.com"
pattern = r"https?://(?:www\.)?([^/]+)"
match = re.search(pattern, url)
if match:print("域名：", match.group(1))

输出：

域名： example.com

正则表达式的调试工具

正则表达式有时比较复杂，尤其是当我们尝试进行嵌套匹配或使用多个分组时。推荐几个常用的正则表达式在线调试工具：

Regex101：支持 Python 正则表达式语法，提供详细解释。
RegExr：可以实时调试并查看匹配结果。

在开发过程中，可以利用这些工具来测试和验证正则表达式的正确性。

总结

本文介绍了正则表达式在 Python 中的基本用法，包括：

基本匹配操作：

match、search 和 findall。
2. 使用特殊符号匹配字符和数量。
3. 使用分组提取子字符串。
4. 替换匹配内容和分割文本。

正则表达式是数据处理和文本分析中的重要工具。通过不断的练习，您将能熟练掌握它并将其应用到实际的开发场景中。