python3 爬虫相关学习10：RE库（regular experssion）正则表达式学习

news/2024/9/18 3:38:54/

1 关于：re / regex / regular expression

1.1 什么是正则表达式

1.2 在python中导入 re

1.3 查看regex相关信息

2 符号意义2.1 行定位符

2.2 元字符 (注意是反斜杠\)

2.3 限定符号

2.4 字符类，字符集合需要中括号[]

2.5 排除字符 [^ ]

2.6 选择字符 |

2.7 转义字符反斜杠 \

2.8 分组符号 ()

2.9 正则表达式需要用 " " 引号，但是要小心各种特殊符号

3 正则表达式的方法

1 关于：re / regex / regular expression

1.1 什么是正则表达式

regular expression 正则表达式
是计算机科学的一个概念
是一个跨多种编程语言的语言格式

1.2 在python中导入 re

导入 re 模块
模块其实可以认为是一个 .py文件
错误写法： import re
正确写法: import regex

1.3 查看regex相关信息

pip list
pip show regex

2 符号意义
2.1 行定位符

用来描述字符串的边界，1行的边界？全部字符串的边界把？可以叫做字符串整体定位符？^ ^

^ #表示字符串开头

$ #表示字符串结尾

2.2 元字符 (注意是反斜杠\)

\w #匹配字母，数字，下划线等，还有各自文字，比如汉字

\W #^w 非w

\s # 匹配空格，换行，tab 等几种看不见的内容

\S #^s 非s

\b #begin 单词的开始的意思如 \bw 匹配单词(不是整个字符串)开始的字母，数字，下划线等，所以 \b不同于 ^

\d # 匹配数字

. # 任意字符

三种括号也是有特殊意义的

() #(fruit|food)s 表示 fruits|foods

[]

{}

2.3 限定符号

* # 匹配前面的字符0次/无限次

+ # 匹配前面的字符1次/无限次

? # 匹配前面的字符0次/1次

{n} # 匹配前面的字符n次

{n,} # 匹配前面的字符至少n次

{n,m} # 匹配前面的字符最少n次，最多m次， n-m次之间的都符合

e.g

^/d{8} #匹配8个数字

.*s #非贪婪匹配任意个数字

2.4 字符类，字符集合需要中括号[]

[abcd] # 匹配abcd中的任意一个都可以

[12345] # 匹配1-5中的任意一个都可以

[0-9] # 匹配任意一个数字，等同于\d

[a-z0-9A-Z] # 匹配所有英文字母，数字，几乎等同\w 是\w的子集（不含汉字等）

2.5 排除字符 [^ ]

关键字 ^

/W # 相当于/^w，但是写法不对，必须写在中括号里 [^] 写在外面还是表示字符串开始

[^a-zA-Z] # 相当于非英文字母以外的其他任意字符

2.6 选择字符 |

选择

条件选择 | 表示or的意思

e.g.

^\d{5}|^\d{6}

2.7 转义字符反斜杠 \

转义字符

把普通字符变成特殊意义的字符， n 转成 \n 换行符
把特殊字符变成普通字符， \* 表示普通字符 * \. 表示普通字符 .

2.8 分组符号 ()

(fruit|food)s #表示 fruits|foods

([abc]{1,3}){3} #表示 [abc]1到3个，然后再来3个，一会试试

2.9 正则表达式需要用 " " 引号，但是要小心各种特殊符号

比如一般的
".*?"

实际使用时，如果包含特殊符号，记得使用 r (rawdata)
r"https://movie.douban.com"

3 正则表达式的方法

re.match()

re.search()

re.find()

re.findall()

re.finditer

re.compile()

re.split

python3 爬虫相关学习10：RE库（regular experssion）正则表达式学习

1 关于：re / regex / regular expression

1.1 什么是正则表达式

1.2 在python中导入 re

1.3 查看regex相关信息

2 符号意义
2.1 行定位符

2.2 元字符 (注意是反斜杠\)

2.3 限定符号

2.4 字符类，字符集合需要中括号[]

2.5 排除字符 [^ ]

2.6 选择字符 |

2.7 转义字符反斜杠 \

2.8 分组符号 ()

2.9 正则表达式需要用 " " 引号，但是要小心各种特殊符号

3 正则表达式的方法

相关文章

常用jar使用杂记

[Swift 开发] @MainActor 自动主线程更新UI

机械硬盘计算机管理,机械硬盘怎么分区

mysql垂直分区和水平分区

Linux 磁盘管理-分区管理-磁盘分区【gdisk】gpt分区工具使用介绍

MySQL表分区

【P12】TL431可调正负直流双电源线性稳压电路

Python+Appium实现自动化测试的使用步骤

【跑实验02】如何提取名称相同的部分，比如obj365_train_000000000002.xml，换成相应的坐标格式

【安卓开发——Dart语法讲解】

JavaScript 鼠标事件、图片跟随鼠标移动。键盘事件

Android软键盘弹出导致页面背景图片上移问题

[C#]键盘↑↓←→控制图片加速移动

pygame--图片随键盘移动

移动端h5页面软键盘弹出后背景图片被顶上去

判断键盘图片

键盘快捷键示意图制作

键盘扫描码大全

Qt键盘事件实现图片在窗口上下左右移动

7-python库之-pyautogui鼠标键盘控制、图片位置查找

python3 爬虫相关学习10：RE库（regular experssion）正则表达式学习

1 关于：re / regex / regular expression

1.1 什么是正则表达式

1.2 在python中导入 re

1.3 查看regex相关信息

2 符号意义 2.1 行定位符

2.2 元字符 (注意是 反斜杠\)

2.3 限定符号

2.4 字符类，字符集合 需要 中括号[]

2.5 排除字符 [^ ]

2.6 选择字符 |

2.7 转义字符 反斜杠 \

2.8 分组符号 ()

2.9 正则表达式需要用 " " 引号，但是要小心各种特殊符号

3 正则表达式的方法

相关文章

2 符号意义
2.1 行定位符

2.2 元字符 (注意是反斜杠\)

2.4 字符类，字符集合需要中括号[]

2.7 转义字符反斜杠 \