Python 爬虫入门(十二):正则表达式「详细介绍」

news/2024/9/13 13:14:02/ 标签: python, 爬虫, 正则表达式

Python 爬虫入门(十二):正则表达式

  • 前言
  • 一、正则表达式的用途
  • 二、正则表达式的基本组成元素
    • 2.1 特殊字符
    • 2.2 量词
    • 2.3 位置锚点
    • 2.4 断言
    • 2.5 字符集
    • 2.6 字符类
      • 2.6.1 基本字符类
      • 2.6.2 常见字符类简写
      • 2.6.3 POSIX字符类
      • 2.6.4 组合使用
  • 三、 正则表达式语法规则
  • 四、高级特性
    • 4.1 回溯引用(捕获组)
      • 示例:匹配重复的单词
    • 4.2 非捕获组
      • 示例:非捕获组的使用
    • 4.3 贪婪与非贪婪匹配
      • 示例:贪婪与非贪婪的区别
    • 4.4 零宽断言
      • 示例:使用零宽断言匹配特定模式
  • 五、 实战案例
    • 5.1 网页数据抓取
      • 代码示例:提取图片地址
    • 5.2 数据清洗
      • 代码示例:清理电话号码中的特殊字符
    • 5.3 提取超链接
      • 代码示例:提取所有的URL
    • 5.4 提取网页中的文本内容
      • 代码示例:提取段落文本
    • 5.5 从JSON数据中提取特定键值对
      • 代码示例:提取JSON中的特定值
    • 5.6 清理HTML标签
      • 代码示例:去除HTML标签
  • 六、 总结

前言

  • 正则表达式(Regular Expression),在编程语言中通常缩写为regex或regexp,是一种用于字符串搜索和操作的模式描述方法。它通过定义一系列的规则来匹配、查找和管理文本数据。

正则表达式在线校验: https://tool.oschina.net/regex/
在这里插入图片描述

一、正则表达式的用途

正则表达式在各种编程任务中都有广泛的应用。以下是一些常见的用途:

  1. 网页数据抓取:通过解析HTML、JSON等格式化数据,爬虫可以精确定位并提取目标数据,例如从网页中提取标题、链接、图片地址等;
  2. 数据验证:用于验证用户输入是否符合特定格式,如邮箱地址、电话号码、邮政编码等;
  3. 文本搜索和替换:能够高效地在文本中查找和替换特定的字符串或模式;
  4. 字符串操作:用于复杂的字符串操作,如拆分、拼接、重构字符串等。

二、正则表达式的基本组成元素

在介绍正则表达式之前,我们需要了解一些基本的组成元素:

2.1 特殊字符

  • 任意字符. 匹配除换行符之外的任意单个字符。
  • 任意数字\d 等同于 [0-9],匹配任意一个数字字符。
  • 任意非数字\D 等同于 [^0-9],匹配任意一个非数字字符。
  • 任意字母[a-z] 匹配任意一个英文小写字母。
  • 任意非字母[^a-z] 匹配任意一个非英文小写字母的字符。

2.2 量词

  • *:出现0次或多次。
  • +:出现1次或多次。
  • ?:出现0次或1次。
  • {n}:确定出现n次。
  • {n,}:至少出现n次。
  • {n,m}:出现n到m次。

2.3 位置锚点

  • ^:行的开头。
  • $:行的结尾。

2.4 断言

  • \b:单词边界。
  • \B:非单词边界。

2.5 字符集

  • []:定义一个字符集,匹配其中的任意单个字符。
  • [^]:取反,匹配不在字符集中的任意单个字符。

2.6 字符类

字符类用于定义一组可以匹配的字符。它们通过方括号[]来表示,在匹配过程中,只要目标字符属于字符类中定义的范围,就会成功匹配。

2.6.1 基本字符类

  • [abc]:匹配abc中的任意一个字符。例如,正则表达式[abc]可以匹配字符串cat中的c

  • [^abc]:匹配除abc之外的任意字符。例如,正则表达式[^abc]可以匹配字符串dog中的d

  • [a-z]:匹配所有小写字母(从az)。例如,正则表达式[a-z]可以匹配字符串hello中的h

  • [A-Z]:匹配所有大写字母(从AZ)。例如,正则表达式[A-Z]可以匹配字符串Hello中的H

  • [0-9]:匹配所有数字字符(从09)。例如,正则表达式[0-9]可以匹配字符串year2024中的2

  • [a-zA-Z0-9]:匹配所有字母和数字,即大小写字母和数字组合。例如,正则表达式[a-zA-Z0-9]可以匹配字符串Pass123中的Pas等字符。

2.6.2 常见字符类简写

正则表达式中,为了方便书写和理解,常用字符类通常会有一些简写形式:

  • \d:匹配任意一个数字字符,等同于[0-9]

  • \D:匹配任意一个非数字字符,等同于[^0-9]

  • \w:匹配任意一个字母、数字或下划线字符,等同于[a-zA-Z0-9_]

  • \W:匹配任意一个非字母、非数字和非下划线字符,等同于[^a-zA-Z0-9_]

  • \s:匹配任意一个空白字符,包括空格、制表符、换行符等,等同于[ \t\n\r\f\v]

  • \S:匹配任意一个非空白字符,等同于[^ \t\n\r\f\v]

2.6.3 POSIX字符类

在一些编程语言和工具中,还支持POSIX字符类,它们是预定义的一些字符类,用于匹配特定类型的字符。

  • [:alnum:]:匹配所有字母和数字字符,等同于[a-zA-Z0-9]

  • [:alpha:]:匹配所有字母字符,等同于[a-zA-Z]

  • [:digit:]:匹配所有数字字符,等同于[0-9]

  • [:lower:]:匹配所有小写字母字符,等同于[a-z]

  • [:upper:]:匹配所有大写字母字符,等同于[A-Z]

  • [:punct:]:匹配所有标点符号字符。

  • [:space:]:匹配所有空白字符,等同于\s

示例:字符类的使用

python">import re# 匹配所有小写字母
pattern = r'[a-z]'
text = "Hello World!"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['e', 'l', 'l', 'o', 'o', 'r', 'l', 'd']# 匹配所有数字字符
pattern = r'\d'
text = "Contact: 123-456-7890"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['1', '2', '3', '4', '5', '6', '7', '8', '9', '0']# 使用POSIX字符类匹配所有字母字符
pattern = r'[[:alpha:]]'
text = "Regex 101!"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['R', 'e', 'g', 'e', 'x']

2.6.4 组合使用

字符类可以与其他正则表达式元素结合使用,形成更加复杂的匹配模式。

python"># 匹配由字母和数字组成的字符串
pattern = r'\w+'
text = "User123 logged in."
matches = re.findall(pattern, text)
print(matches)  # 输出: ['User123', 'logged', 'in']# 匹配以小写字母开头且后面跟着数字的字符串
pattern = r'[a-z]\d+'
text = "a123 B456 c789"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['a123', 'c789']

三、 正则表达式语法规则

正则表达式的语法规则是构建有效正则表达式的基础。以下是一些常见的语法规则:

  1. 组合:使用|来表示“或”,例如ab|cd可以匹配“ab”或“cd”。
  2. 分组:使用圆括号()来创建子表达式,允许对正则表达式的部分进行分组。
  3. 量词:使用量词来指定模式出现的次数。
  4. 转义特殊字符:使用反斜线\来转义特殊字符,使其作为普通字符匹配。

四、高级特性

正则表达式除了基本的字符匹配和量词之外,还包含一些高级特性,用于构建更为复杂的匹配模式。

4.1 回溯引用(捕获组)

捕获组不仅可以用于分组,还可以在正则表达式的其他部分进行引用。引用捕获组可以通过反斜线加上捕获组的编号来实现。

  • ():用来定义捕获组。
  • \1:表示对第一个捕获组的引用。

示例:匹配重复的单词

python">import re
pattern = r'\b(\w+)\s+\1\b'
text = "This is a test test string"
match = re.search(pattern, text)
if match:print(f"Matched: {match.group(0)}")  # 输出: 'test test'

4.2 非捕获组

有时我们需要分组但不希望它被捕获用于后续引用,可以使用非捕获组(?:...)

示例:非捕获组的使用

python">pattern = r'(?:ab|cd)+'
text = "ababcdbcd"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['ababcd', 'bcd']

4.3 贪婪与非贪婪匹配

正则表达式的匹配模式默认是贪婪的,即它会尽可能多地匹配字符。可以通过在量词后加上?来使匹配变为非贪婪的,匹配尽可能少的字符。

示例:贪婪与非贪婪的区别

python">import retext = "<div>hello</div><div>world</div>"# 贪婪匹配
greedy_pattern = r'<.*>'
greedy_match = re.findall(greedy_pattern, text)
print(greedy_match)  # 输出: ['<div>hello</div><div>world</div>']# 非贪婪匹配
non_greedy_pattern = r'<.*?>'
non_greedy_match = re.findall(non_greedy_pattern, text)
print(non_greedy_match)  # 输出: ['<div>', '</div>', '<div>', '</div>']

4.4 零宽断言

零宽断言用于在不消费字符的情况下进行匹配。它分为正向零宽断言(Lookahead)和反向零宽断言(Lookbehind)。

  • (?=...):正向零宽断言,表示某位置后必须匹配某模式。
  • (?<=...):反向零宽断言,表示某位置前必须匹配某模式。
  • (?!...):负向零宽断言,表示某位置后不能匹配某模式。
  • (?<!...):负向反向零宽断言,表示某位置前不能匹配某模式。

示例:使用零宽断言匹配特定模式

python"># 匹配'fox'前面是'quick'的单词
pattern = r'(?<=quick\s)fox'
text = "The quick brown fox jumps over the lazy dog"
match = re.search(pattern, text)
if match:print(f"Matched: {match.group(0)}")  # 输出: 'fox'# 匹配'fox'后面跟随'jumps'的单词
pattern = r'fox(?=\sjumps)'
text = "The quick brown fox jumps over the lazy dog"
match = re.search(pattern, text)
if match:print(f"Matched: {match.group(0)}")  # 输出: 'fox'

五、 实战案例

5.1 网页数据抓取

使用正则表达式从HTML中提取特定内容。

代码示例:提取图片地址

python">import rehtml_content = '''
<img src="image1.png" alt="image1">
<img src="image2.jpg" alt="image2">
<img src="image3.gif" alt="image3">
'''pattern = r'<img src="(.*?)"'
images = re.findall(pattern, html_content)
print(images)  # 输出: ['image1.png', 'image2.jpg', 'image3.gif']

5.2 数据清洗

在数据分析过程中,经常需要对数据进行清洗,去除无关字符或格式化数据。

代码示例:清理电话号码中的特殊字符

python">import retext = "Call us at (123) 456-7890 or 123.456.7890!"
cleaned_numbers = re.sub(r'[^\d]', '', text)
print(cleaned_numbers)  # 输出: '12345678901234567890'

5.3 提取超链接

从HTML文档中提取所有的超链接。

代码示例:提取所有的URL

python">import rehtml_content = '''
<a href="http://example.com/page1">Page 1</a>
<a href="https://example.com/page2">Page 2</a>
<a href="http://example.com/page3">Page 3</a>
'''pattern = r'<a href="(.*?)">'
links = re.findall(pattern, html_content)
print(links)  # 输出: ['http://example.com/page1', 'https://example.com/page2', 'http://example.com/page3']

5.4 提取网页中的文本内容

提取HTML标签中的文本内容,如提取所有段落标签

中的文本。

代码示例:提取段落文本

python">import rehtml_content = '''
<p>This is the first paragraph.</p>
<p>Here is the second paragraph with <a href="#">a link</a>.</p>
<p>And the third paragraph.</p>
'''pattern = r'<p>(.*?)</p>'
paragraphs = re.findall(pattern, html_content, re.DOTALL)
print(paragraphs)  # 输出: ['This is the first paragraph.', 'Here is the second paragraph with <a href="#">a link</a>.', 'And the third paragraph.']

5.5 从JSON数据中提取特定键值对

在处理API返回的JSON数据时,可以使用正则表达式快速提取特定的键值对。

代码示例:提取JSON中的特定值

python">import rejson_data = '''
{"name": "John Doe","email": "john.doe@example.com","phone": "+123-456-7890","address": "123 Main St, Anytown, USA"
}
'''pattern = r'"phone":\s*"(.*?)"'
phone_number = re.search(pattern, json_data).group(1)
print(phone_number)  # 输出: '+123-456-7890'

5.6 清理HTML标签

清理文本中的HTML标签,提取纯文本内容。

代码示例:去除HTML标签

python">import rehtml_content = '''
<h1>Title</h1>
<p>This is a <strong>bold</strong> statement.</p>
<p>Here is a <a href="#">link</a> and some <em>italic</em> text.</p>
'''clean_text = re.sub(r'<.*?>', '', html_content)
print(clean_text)  # 输出: 'Title\nThis is a bold statement.\nHere is a link and some italic text.'

六、 总结

本文详细介绍了正则表达式的基础知识、语法规则及高级特性,并结合实际案例展示了正则表达式在编程中的重要作用。通过掌握正则表达式,你可以更高效地处理文本数据,解决各种复杂的字符串匹配问题。


http://www.ppmy.cn/news/1516267.html

相关文章

DVWA靶场通关(CSRF)

CSRF 是跨站请求伪造&#xff0c;是指利用受害者尚未失效的身份认证信息&#xff08;cookie、会话等&#xff09;&#xff0c;诱骗其点击恶意链接或者访问包含攻击代码的页面&#xff0c;在受害人不知情的情况下以受害者的身份向&#xff08;身份认证信息所对应的&#xff09;服…

第七章 项目布局实现(7.4.4)——全屏功能

7.4.4 全屏功能 全屏功能通过 VueUse 实现。VueUse 基于 Vue 组合式 API 的实用工具集,功能非常丰富。 官网:https://vueuse.org/ 安装 npm i @vueuse/core当前 package.json 文件: {"name": "yumi-admin","private":

前端宝典十五:设计模式之前端开发5大设计原则

本文主要探讨前端开发设计原则&#xff1a; 单一职责原则 开闭原则 里氏替换原则 接口隔离原则 依赖倒置原则 一、单一职责原则&#xff08;Single Responsibility Principle&#xff0c;SRP&#xff09; 1、介绍&#xff1a; 一个类应该只有一个引起它变化的原因。这意味着…

基于Modbus的MFC智能控制

1. 系统概述 利用LabVIEW通过Modbus 485协议实现对七星&#xff08;Sevenstar&#xff09;品牌质量流量控制器&#xff08;MFC&#xff09;的智能化控制。该系统将自动控制多个MFC的流速&#xff0c;实时监控其状态&#xff0c;并根据需要进行调整。 2. 硬件配置 MFCs: 七星品…

Python和MATLAB梯度下降导图

&#x1f3af;要点 寻找局部最小值普通最小二乘法和随机梯度下降的动量线性回归媒体广告销售光学字符识别和最小化均方误差男女医疗费用最快速下降方向函数优化等高线图可视化共轭梯度下降可视化损失函数、动量、涅斯特洛夫动量、权衰减量化不确定性拓扑结构算法分类中权重归一…

SE11 没有激活的名称表存 No active nametab exists for

背景&#xff1a; SE11中减少某个非空表的字段的长度后&#xff0c;在SE14中的操作不当&#xff0c;并且对该表进行了删除重建的操作后&#xff0c;发生SE11激活该表报错。 原因&#xff1a; 出现了一些未知原因&#xff0c;导致该表在底层数据库存在&#xff0c;但是运行时对…

cpu steal非常高

steal代表非自愿等待&#xff0c;这个值出现说明服务器cpu争用很严重&#xff0c;cpu资源不足 ctxt&#xff0c;这个值代表cpu上下文切换次数/proc/stat 是一个伪文件系统&#xff08;procfs&#xff09;中的文件&#xff0c;它提供了系统级别的统计信息。这个文件包含了CPU使用…

Spring + Boot + Cloud + JDK8 + Elasticsearch 单节点 模式下实现全文检索高亮-分页显示 快速入门案例

1. 安装elasticsearchik分词器插件 sudo wget https://release.infinilabs.com/analysis-ik/stable/elasticsearch-analysis-ik-8.13.4.zip sudo mkdir -p ./es_plugins/analysis-ik sudo mkdir ./es_data sudo unzip elasticsearch-analysis-ik-8.13.4.zip -d ./es_plugins/a…

数据结构-全部由1组成的子矩形数量

给定一个二维数组matrix, 其中的值不是0就是1&#xff0c; 返回全部由1组成的子矩形数量。 import java.util.Stack;public class CountSubmatricesWithAllOnes {public static void main(String[] args) {int[][] mat {{1,1,1,1,1,1},{1,1,1,1,1,1},{1,1,1,1,1,1}};System.o…

腾讯云是什么?为什么选择它?

腾讯云是什么&#xff1f; 腾讯云&#xff08;Tencent Cloud&#xff09;是全球领先的云计算服务提供商&#xff0c;凭借其强大的技术实力和丰富的行业经验&#xff0c;腾讯云为全球超过100万用户提供稳定、可靠、高效的云计算服务。无论是初创企业&#xff0c;还是大型企业&a…

22. K8S及DevOps

22. K8S及DevOps 一. 章节简介二. DevOps1. 简介2. CICD三. Kubernetes[1. 官网](https://kubernetes.io/zh-cn/)--------------------------------------------------------------------------------------------------------一. 章节简介 二. DevOps 1. 简介 2. CICD

element表格导出

element表格导出 使用了xlsx插件做表格下载 1、首先安装xlsx插件 import XLSX from ‘xlsx’ 2、在el-table上添加ref 3、导出方法 downloadFun() {const tableElement this.$refs.table.$elconst ws XLSX.utils.table_to_sheet(tableElement)// 创建工作簿并添加工作表…

Mybatis--其他查询操作和数据库连接池(下下)

序 准备工作&#xff1a; mysql数据库和表的信息更新&#xff1a; DROP TABLE IF EXISTS articleinfo;CREATE TABLE articleinfo (id INT PRIMARY KEY auto_increment,title VARCHAR ( 100 ) NOT NULL,content TEXT NOT NULL,uid INT NOT NULL,delete_flag TINYINT ( 4 ) DEF…

E. Linear Kingdom Races

https://codeforces.com/problemset/problem/115/E 线段树优化dp O(n2)->O(nlogn) 分析题意发现可以有暴力dp dp(i)是前i条路最大利润 dp(i)dp(i-1)不选第i条路 dp(i)max(dp(j)val(j)-cost(j))选这i条路 dp(i)max(dp(i-1),max(dp(j)val(j)-cost(j)) 显然右边值可以用…

每天一个数据分析题(四百九十六)- 决策树模型

回归树是可以用于回归的决策树模型&#xff0c;一个回归树对应着输入空间&#xff08;即特征空间&#xff09;的一个划分以及在划分单元上的输出值。以下哪个指标可用于回归树中的模型比较 A. Adjusted R2 B. F-measure C. AUC D. Precision & Recall 数据分析认证考试…

在rk设备上挂载windows上某个文件夹,通过SSH实时将打包的文件保存至windows上

一、简介 要实现将实时打包的镜像文件直接保存到Windows上,而不是先在RK3588设备上创建镜像然后再传输,你可以通过网络挂载Windows上的共享文件夹到RK3588设备上。这样你可以将镜像直接写入到Windows设备的存储中,而不占用RK3588设备的内存空间。 二、步骤1:在Windows上设…

【HTML】模拟二级菜单【附源代码】

模拟二级菜单 HTML部分&#xff1a; <!DOCTYPE html>: 声明文档类型为HTML5。<html>: HTML文档的根元素。<head>: 包含文档的元数据&#xff0c;如字符集、标题和样式。 <meta charset"utf-8">: 设置文档的字符编码为UTF-8。<title>:…

游戏出海新风向:Mintegral详解混合休闲游戏增长策略与ROI优化

根据汇量科技Mobvista此前发布的《2024H1 海外手游市场白皮书——全球获客及变现指南》进一步揭示&#xff0c;以益智及生活模拟品类为代表&#xff0c;混合休闲赛道在买量侧的增长势头十分强劲&#xff1a; 益智游戏&#xff1a;在买量手游市场中占据主导地位&#xff0c;占比…

etcd参数解释

etcd 版本 [rootaaaaaa ~]# /data/etcd/etcd-v3.5.15-linux-amd64/etcd --version etcd Version: 3.5.15 Git SHA: 9a5533382 Go Version: go1.21.12 Go OS/Arch: linux/amd64基础命令: etcd [flags]&#xff1a;启动一个 etcd 服务器。etcd --version&#xff1a;显示 etcd…

【赵渝强老师】Docker三剑客

在Docker容器中提供了三个非常有用的工具&#xff0c;它们分别是&#xff1a;Docker Compose、Docker Machine和Docker Swarm。下面分别进行介绍。 视频讲解如下&#xff1a; Docker三剑客 【赵渝强老师】Docker的三剑客 一、容器编排工具Docker Compose 在使用Docker部署应用…