Python 正则表达式2 语法基础

内容概述

正则表达式是由普通字符（例如"a",“b”,“c"等）以及特殊字符（例如”+“,”-“,”^"等）组成的文字模式。举个例子，[a-z]这个正则表达式就代表了匹配所有的小写字母(“a”,“b”,“c”,…,“y”,“z”)，相关示例代码如下：

python">import re# 定义正则表达式模式
pattern = r'[a-z]'
# 待匹配的字符串
text = "AaBbCcDdEeFfG"
# 使用 split() 函数进行分割
split_text = re.split(pattern, text)
print(split_text)

输出

['A', 'B', 'C', 'D', 'E', 'F', 'G']

一般大写字母，小写字母，数字均为普通字符，其他字符中一部分是有特别含义的特殊字符(如"-")，其余部分为普通字符。特殊字符需要在后面的语法规则里面慢慢了解，记忆和掌握。

基本规则

正则表达式如果全面详细描述，其实语法内容也不少，但从实际应用来看，掌握小部分精华的规则就足够了。说实话，学习太多的规则，一来是记不住，二来是大概率用不上，所以从实用主义看没必要学习太多规则。

掌握三条核心规则就行：输入限定规则，数量限定规则，符号限定规则

输入限定规则

匹配输入[]，匹配 […] 中的所有字符；匹配不输入[^]，匹配除了 […] 中字符的所有字符。

举个例子，[abc]和[^abc]，代码如下：

python">import re# 定义正则表达式模式
pattern = r'[abc]'
# 待匹配的字符串
text = "a1b2c3"
# 使用 split() 函数进行分割
split_text = re.split(pattern, text)
print(split_text)pattern = r'[^abc]'
split_text = re.split(pattern, text)
print(split_text)

输出

['', '1', '2', '3']
['a', 'b', 'c', '']

数量限定规则

如何控制匹配的字符数量呢？可以给符号后面加上有关数量的限定规则，比如n个a就表示为[a]{n}，一个以上数量的a就表示为[a]+，也就是输入限定+数量限定的形式。看下面例子（注意，+对数量的匹配默认是贪婪的，来多少就吃多少，比如aaa只匹配1个结果，而不是3个分别匹配的a，要想反过来非贪婪，后面再加?即可）：

python">import re# 待匹配的字符串
text = "I have three aaa."pattern = r'[a]{1}'
# 使用 split() 函数进行分割
split_text = re.split(pattern, text)
print(split_text)pattern = r'[a]{2}'
split_text = re.split(pattern, text)
print(split_text)pattern = r'[a]+'
split_text = re.split(pattern, text)
print(split_text)pattern = r'[a]+?'
split_text = re.split(pattern, text)
print(split_text)

输出

['I h', 've three ', '', '', '.']
['I have three ', 'a.']
['I h', 've three ', '.']
['I h', 've three ', '', '', '.']

更多参考：

* 零次或多次，贪婪模式
+ 一次或多次，贪婪模式
? 零次或一次
*? 零次或多次，非贪婪模式
+? 一次或多次，非贪婪模式
{n} n 次
{n,} 至少n次
{n,m} n到m次
{0,n} 最多n次

符号限定规则

首先得说明，正则表达式里面的括号()和四则运算一样能说明和改变运算的优先级，比如[a][b]{10}和([a][b]){10}是不一样的，为了保证运算正确，需要用括号把[a][b]括起来才能保证我们要得到的是10个ab，不然没有括号就是a加10个b，因为数量限定会优先与前面一个输入限定进行运算。其次，有时候输入限定的括号[]也不是必须的，比如可以’(ab){10}’

除了普通字符，有些字符也有特殊含义，如下：

A-Z 大写字母
a-z 小写字母
0-9 一位数字
. 除换行符（\n、\r）之外的任何单个字符
\s 所有空白符，包括换行
\S 非空白符，不包括换行
\w 字母、数字、下划线
\d 任意一个阿拉伯数字（0 到 9）
\n 换行符
\r 回车符
\t 制表符
| 或，比如a|b表示a或b中的一个
\ 转义特殊符，如需要输入+就转义\+

符号限定里面的字符优先级地位差不多和普通字符一样，就类似文本里面的换行符用\n去表示一样