正则表达式学习笔记

news/2025/2/23 3:45:55/

re.match()的使用

尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回None

1.最常规的匹配

import re contect = 'Hello 123 456789 World_this is a Regex Demo'res= re.match('^Hello\s\d\d\d\s\d{6}\s\w{10}.*Demo$', contect)print(res)
print(res.group()) #获取匹配内容
print(res.span()) #查看匹配长度
print(len(contect))  #len统计字符串的数量
<re.Match object; span=(0, 43), match='Hello 123 456789 World_this is a Regex Demo'>
Hello 123 456789 World_this is a Regex Demo
(0, 43)
43
a_str = 'qwe 123 ghj'
res = re.match('^q\w{2}\s\d{3}.*j$', a_str)
print(res.group())
qwe 123 ghj

2.范匹配

contect = 'Hello 123 4567 World_This is a Regex'result = re.match('^H.*?Regex$', contect)
print(result.group())
print(result.span())
Hello 123 4567 World_This is a Regex
(0, 36)

3.匹配目标–分组匹配(可用()进行分组匹配)

contect = 'qwe Hello 1234567 world_This is a Regex Demo'# result = re.match('^qwe\s(\w+)\s(\d{7}).*Demo$', contect)  #括号分组
result = re.match('^qwe\s(\w+)\s(\d{3}).*Demo$', contect)  #第二组匹配前3个数
print(result.group())
print(result.group(1))
print(result.group(2))
qwe Hello 1234567 world_This is a Regex Demo
Hello
123
sssd = 'dasdjskL22222adjlsakjddd666666dasssssssa'result = re.match('^d.*L(\d+).*ddd(\d+)d.*a$', sssd)
print(result)
print(result.group(1))
print(result.group(2))
<re.Match object; span=(0, 40), match='dasdjskL22222adjlsakjddd666666dasssssssa'>
22222
666666

4.贪婪匹配(尽可能多的去匹配)

content = 'Hello 1234567 world_This is a Regex Demo'result = re.match('^He.*(\d+)\s.*Demo$', content)
print(result)
print(result.group(1))
<re.Match object; span=(0, 40), match='Hello 1234567 world_This is a Regex Demo'>
7

5.非贪婪模式(尽可能少的去匹配)

content = 'Hello 1234567 world_This is a Regex Demo'result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))
<re.Match object; span=(0, 40), match='Hello 1234567 world_This is a Regex Demo'>
1234567

6.匹配模式(针对换行) re.S

#re.S匹配包括换行在内的所有字符
content = '''Hello 1234567 world_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*Demo$', content, re.S)
print(result)
print(result.group(1))
<re.Match object; span=(0, 40), match='Hello 1234567 world_This\nis a Regex Demo'>
1234567

7.转义

#错误
content = 'price is $5.00'  #  .是正则里的特殊匹配符号result = re.match('price is $5.00', content)
print(result)
None
#正确
content = 'price is $5.00'  #  .是正则里的特殊匹配符号result = re.match('price is \$5\.00', content)
print(result)
print(result.group())
<re.Match object; span=(0, 14), match='price is $5.00'>
price is $5.00

尽量使用非贪婪模式

re.search()方法的使用

re.search()扫描整个字符串并返回第一个成功的匹配

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'# result = re.match('He.*?(\d+).*?Wor', content)  #None
result = re.match('Ex.*?(\d+).*?Wor', content)
print(result)
<re.Match object; span=(0, 30), match='Extra stings Hello 1234567 Wor'>
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'result = re.search('He.*?(\d+).*?Wor', content)
print(result)
print(result.group(1))
<re.Match object; span=(13, 30), match='Hello 1234567 Wor'>
1234567
html = '''<li data-view="4" class="active"><a href="/3.mp3" singer="老秦">往事随风</a></li>
'''result = re.search('<li.*?class="active".*?singer="(.*?)">(.*?)</a>.*?</li>', html, re.S)
print(result.group(1))
print(result.group(2))
老秦
往事随风

re.findall()

拿到所有满足要求的数据

找到数据的共同点,基本不一样的地方用.*?

re.sub()

替换字符串中每一个匹配的字符串后返回替换后的字符串

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
#第一个参数 正则表达式
#第二个参数 要替换的字符串
#第三个参数 原字符串
content = re.sub('s', '7', content)
print(content)
Extra 7ting7 Hello 1234567 World_Thi7 i7 a Regex Demo Extra 7ting7
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'content = re.sub('\d+', '66666666', content)
print(content)
Extra stings Hello 66666666 World_This is a Regex Demo Extra stings
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'#要替换的内容是在包含原字符串的本身后面去追加
content = re.sub('(\d+)',r'\1 3333', content)  #\1保留原始字符串  r表示追加  空格后面表示要追加的内容
print(content)
Extra stings Hello 1234567 3333 World_This is a Regex Demo Extra stings

| 表示或
将阻碍匹配的数据替换成空白
方便后面的匹配

re.compile()

将正则字符串编译成正则表达式对象

content = '''Hello 1234567 world_This
is a Regex Demo
'''pattern = re.compile('Hello.*?Demo', re.S)  #正则表达式对象
print(pattern)result = re.match(pattern, content)
print(result)
re.compile('Hello.*?Demo', re.DOTALL)
<re.Match object; span=(0, 40), match='Hello 1234567 world_This\nis a Regex Demo'>

http://www.ppmy.cn/news/57920.html

相关文章

营收、利润增速第一!海尔智家为何领跑?

“企业只有保持领先的能力&#xff0c;才有可能取得经济成果。” 管理学大师德鲁克曾如此强调。所谓“领先”&#xff0c;就是独一无二的、有价值的东西。利润&#xff0c;是企业在某个领域取得领先优势后&#xff0c;必然获得的回报。 这种“领先优势”&#xff0c;在各行业…

c++ 虚函数

虚函数的理解 1、c virtual 函数作用&#xff1a;如果重写的函数中有重名的函数&#xff0c;那么则调用重写的函数 2、 如果不是虚函数&#xff0c;则调用继承的函数 3、“重写”的要求是函数的特征标&#xff08;包括参数的数目、类型和顺序&#xff09;以及返回值都必须与基类…

5. 操作系统基础

5. 操作系统基础 常考面试题 说说你对进程的理解⭐⭐⭐ 程序是指令、数据及其组织形式的描述,而进程则是程序的运行实例,包括程序计数器、寄存器和变量的当前值。 Linux的进程结构,一般分为三部分:代码段、数据段(.data与.bss)和堆栈段。 代码段用于存放程序代码,如果有…

Python基础合集 练习24 (程序调试)

assert expression[,arguments] expression条件表达式语句,如果表达式的值为真,则程序会继续执行下去,如果值为假则程序抛出Assertionerror错误,并输出指定的参数内容 arguments可选参数 if not expression: raise AssertionError(argument) def num_ca(): book int(inpu…

【Log4j RCE (CVE-2021-44228)】复现及原理分析

Log4j RCE &#xff08;CVE-2021-44228&#xff09; 2021 年 12 月 9 日&#xff0c;阿里云安全团队向 apache 报告了由 log4j 日志引起的远程代码执行漏洞。 2021 年 12 月 10 日凌晨&#xff0c;log4j 漏洞利用细节被公开&#xff0c;几乎所有的互联网公司都受到影响。 2021 …

Linux man 命令详解

man 命令 Linux man 命令用于显示 Linux 操作系统中的手册页&#xff08;manual page&#xff09;&#xff0c;它提供了对 Linux 操作系统中各种命令、函数、库等的详细说明&#xff0c;man 命令有许多参数。 参数介绍 下面简要介绍一下主要参数的功能&#xff1a; -f&…

【五一创作】《嵌入式系统》知识总结7:GPIO寄存器

总述 每组端口具有7个寄存器 • 实现对GPIO端口初始化配置和数据输入输出控制 1. 配置寄存器&#xff1a;GPIOx_CRL、GPIOx_CRH 用来选择引脚功能&#xff0c;例如输入或输出 2. 数据寄存器&#xff1a;GPIOx_IDR、GPIOx_ODR 用来保存引脚输入电平或输出电平 3. 位控寄存器…

Java开发者在Windows环境安装各类开发工具汇总

Java开发者在Windows环境安装各类开发工具汇总 前言Java JDK下载配置 Tomcat下载配置 Maven下载配置配置仓库 Nginx下载启动关闭 MySQL下载配置my.ini初始化MySQL数据文件安装MySQL服务启动MySQL登录MySQL重置登录密码 NodeJs下载安装与验证配置NPM Git下载配置git配置ssh免密登…