使用正则表达式读取文本数据【Python】

news/2025/1/13 1:52:49/

使用正则表达式读取文本数据

假如我们需要处理的数据具有很强的规律性, 例如下面这样, 数据基本上都是一个独立的一行, 并且每个数据都有名称标志.

RUN OU = 1.903784OV = 1.862293OW = 1.860681OUINV = 548.000793STOP index = 1V = 0.000000W = 0.000000E_theta = 0.000000UINV = 0.000000fault_flag= 0index = 2V = -0.025882W = 0.044830E_theta = -0.523599UINV = 0.000000fault_flag= 0index = 3V = 0.220001W = -0.201728E_theta = 2.312893UINV = 0.000000fault_flag= 0

假设我们需要提取E_theta = 后面的数据并绘制为图像, 使用手工处理耗费大量的人力和时间, 这时我们可以用python脚本快速完成这一功能. 以下为详细步骤

1、导入所需要的库

python">import re                                       # 导入正则表达式模块库
import matplotlib.pyplot as plt

导入正则表达式re库和绘制图像常用的matplotlib
repython自带;
matplotlib需要用户自己安装, 使用以下命令可安装该库

pip install matplotlib

2、读取存储原始数据的文本文件

python"># 从文件中读取数据
file_path = 'data.txt'              # 替换为你的文件路径# 以只读模式打开文件
# 通常使用默认编码来读取文件, 如果使用其他编码, 可以指定encoding参数
with open(file_path, 'r') as file:data = file.read()              # 读取文件的全部内容, 并返回一个字符串

如果文件使用GBK编码, 则可以这样写

python">with open(file_path, 'r', encoding='gbk') as file:data = file.read()

with 用于管理文件的上下文, 可以确保文件在使用后自动关闭, 即使在读取文件发生异常时也是如此.
r 表示以只读模式打开文件.

3、使用正则表达式提取数据

python"># # re.findall(pattern,string) 在字符串中搜索所有匹配的模式, 如果匹配成功则返回一个匹配对象
# \s*       匹配任何空白字符, 包括空格、制表符、换行符等
# *         表示匹配前面的字符0次或多次
#           用于处理E_theta和 = 之间可能存在的任意数量的空格
# ([-\d.]+) 
# ()        表示捕获组, 用于提取匹配的部分
# [-\d.]    是一个字符集, 匹配以下任意一个字符
# -         匹配负号
# \d        匹配任何数字
# .         匹配小数点
# +         表示匹配前面的字符集1次或多次
#           [RegExr: Learn, Build, & Test RegEx](https://regexr.com/)
# \b        表示单词边界匹配符, 确保E_theta是一个独立的单词, 防止匹配到带有前缀和后缀的单词e_theta_values = re.findall(r'\bE_theta\s*=\s*([-\d.]+)', data)# 将提取的字符串转换为浮点数
e_theta_values = [float(value) for value in e_theta_values]# 输出 E_theta 数据
print("E_theta 数据:")
for value in e_theta_values:print(value)

4、使用matplotlib绘制曲线

python"># 绘制图像# marker='o',       表示指定数据点的标记类型为圆圈o
# linestyle='-',    指定线的样式为实线
# color='r'         指定线的颜色为红色plt.plot(e_theta_values, marker='o', linestyle='-', color='r', label='E_theta')
plt.title('E_theta data change')            # 设置图表的标题
plt.xlabel('index')                         # 设置X轴标签内容
plt.ylabel('E_theta value')                 # 设置Y轴标签内容
plt.grid(True)                              # 显示网格
plt.legend()                                # 显示图例
plt.show()

运行程序后即可得到图像


http://www.ppmy.cn/news/1562670.html

相关文章

WebRtc04: JavaScript知识回顾

JavaScirpt调试方法 基础知识 变量与类型 基本运算 if/else for循环 函数 日志打印 console.log("xxx")

机器学习之留出法中的分层采样和多次切分

留出法(Hold-out Method) 本身是数据划分的一种方式,将数据集分为训练集和测试集。为了提升留出法的评估效果,常常结合分层采样和多次切分等技术。以下是详细说明这些方法如何增强留出法的效果。 1. 留出法(Hold-out Method) 留出法是将数据集划分为训练集和测试集的一…

HTML5 加载动画(Loading Animation)

加载动画(Loading Animation)详解 概述 加载动画是指在数据加载过程中,向用户展示的一种视觉效果,旨在提升用户体验,告知用户系统正在处理请求。它可以减少用户的等待焦虑感,提高界面的互动性。 常见的加…

PyTorch reshape函数介绍

torch.reshape 是 PyTorch 用于改变张量形状的函数之一。它不会改变张量的数据,而是重新组织其元素以适应新的形状。 reshape 的使用 torch.reshape(input, shape) → Tensorinput:输入张量。shape:新形状,使用整数或 -1 指定各维…

车载网络:现代汽车的数字心跳

在汽车领域,“智能汽车”一词毫不夸张。如今的汽车已不再是原始的机械工程,而是通过先进的车载网络无缝连接的精密数字生态系统。这些滚动计算机由复杂的电子控制单元(ECU)网络提供动力,ECU是负责管理从发动机性能到信息娱乐系统等一切事务的…

数据结构大作业——家谱管理系统(超详细!完整代码!)

目录 设计思路: 一、项目背景 二、功能分析 查询功能流程图: 管理功能流程图: 三、设计 四、实现 代码实现: 头文件 结构体 函数声明及定义 创建家谱树头结点 绘制家谱树(打印) 建立右兄弟…

JavaSE——网络编程

一、InetAddress类 InetAddress是Java中用于封装IP地址的类。 获取本机的InetAddress对象: InetAddress localHost InetAddress.getLocalHost();根据指定的主机名获取InetAddress对象(比如说域名) InetAddress host InetAddress.getByNa…

用c实现C++类(八股)

在 C 语言中,虽然没有内建的面向对象编程(OOP)特性(如封装、继承、多态),但通过一些编程技巧,我们仍然可以模拟实现这些概念。下面将用通俗易懂的方式,逐步介绍如何在 C 中实现封装、…