TextMining day1 电力设备运维过程中的短文本挖掘框架

news/2024/11/15 1:32:26/

电力设备运维过程中的短文本挖掘框架

  • III. 短文本挖掘框架的具体设计
    • A. 预处理模块的具体设计
    • B. 数据清洗模块的具体设计
    • C. 表示模块的具体设计
    • D. 数据分析模块的具体设计
  • IV. 案例研究
    • A. 基于文本分类的缺陷程度判断
    • B. 基于文本检索的缺陷处理决策
  • V. 结论

image-20230703092411160

  • 预处理 首先,与一般的自然语言处理任务类似,对日志、票据和规范中的短文本进行预处理。

    • 分词 是对中文文本进行预处理的一个必要的基本步骤。在英语文本中,两个单词之间有一个空格用来分隔,所以这一步通常被跳过。
    • POS标记 对每个单词的词性(POS,part-of-speech)进行标记,这可能有利于后续的分析。
    • 停止词消除 对于除统计工作外的大多数文本挖掘任务来说,检查员名称、地点、变电站等停止词都是没有意义的,因此一般需要将它们从文本中删除。
  • 数据清理 由于检验工程师的知识和经验有限,除了规范中的简短文本外,日志和标签中可能存在信息遗漏、信息矛盾等错误。因此,为了保证短文本挖掘的可信度,需要将日志和票据中的文本数据分错误识别和质量改进两步进行清理。

    • 错误识别
    • **质量改进 **
  • Representation 表示模块将文本数据转换成计算机可以理解的形式。

    • 结构化形式 传统的方法是用结构化的形式来表示短文本,通常是向量或矩阵。
    • 半结构式 本文提出了一种基于知识图谱技术的短文本半结构化表示形式,将短文本转化为图形结构。

    最后,结合其他形式的数据(如数值数据),结合电力设备运维的实际应用,对结构化或半结构化文本数据进行分析。

  • 数据分析

    • 机器学习 机器学习方法主要用于数据和结果之间的映射关系复杂和隐蔽的情况。
    • 基于规则 对于某些可以确定映射关系的任务,基于规则的方法更合适,因为它们具有很强的可解释性。

    最后,数据分析模块将输出与电力设备运维判断和决策相关的结果。

  • 应用

    • 判断
      • 缺陷程度
      • 健康指数
    • 决策
      • 缺陷处理
      • 维护策略

III. 短文本挖掘框架的具体设计

A. 预处理模块的具体设计

image-20230703104617346

如图2所示,第一阶段是获取包含术语和习语的词汇,以及经过良好分割和标记的权力语料库。

image-20230703104633926

第二阶段如图3所示,对发送到预处理模块的原始短文本进行分割和标记。

B. 数据清洗模块的具体设计

image-20230704092212538

质量改进步骤中的关键参数和算法

image-20230704092853556

C. 表示模块的具体设计

image-20230704092224633

image-20230704092327683

image-20230704092335978

D. 数据分析模块的具体设计

CNN的关键参数如表六所示

image-20230704095947413

IV. 案例研究

A. 基于文本分类的缺陷程度判断

基于短文本挖掘框架,实验组1 (EG1)将文本表示为向量并应用SVM进行数据分析,实验组2 (EG2)将文本表示为矩阵并通过CNN对文本数据进行分析。

另外,为了与EG1进行比较,在对照组1 (CG1)中略过专门设计的数据清洗模块,在对照组2 (CG2)中略过专门设计的VSM在表示模块中的具体设计。

同样,为了与EG2进行比较,我们在对照组3 (CG3)和对照组4 (CG4)中分别跳过了专门设计的数据清洗模块和专门设计的数据分析模块中的CNN。实验过程中,记录机器学习分类器的训练时间和测试时间,分别反映数据分析模块离线和在线计算的效率。结果见表七。

image-20230704100351330

对比EG1和EG2,可以看出深度学习模型CNN比传统机器学习模型SVM准确率更高,但效率更低。深度学习模型有更多的参数,可以更有效地分析特征,但需要更多的时间。模型的选择会影响精度和效率,在实际应用中,精度和效率是具体设计的重要组成部分。

EG2的准确率高达97.98%,虽然花费了最多的训练和测试时间,但效率显著高于人工分类。因此,经过专门设计模块的短文本挖掘框架可以有效地指导判断,并在总体精度和效率上取得令人满意的结果。

B. 基于文本检索的缺陷处理决策

对于新的缺陷日志,如果可以检索到与新日志缺陷条件相同的已有缺陷日志,则可以参考之前的处理方法,做出新缺陷的处理决策。

在实践中,即使两个缺陷日志中的缺陷条件相同,由于不同工程师的知识和经验不同,对这两个日志的描述可能会有很大的不同。因此,文字相似性并不能很好地反映一致性,需要深入理解文本信息所包含的关系。针对这一问题,在表示模块中采用半结构化形式表示缺陷日志,以知识图谱的形式清晰地表达缺陷日志之间的关系。

电力知识图谱构建(主要是关系提取步骤)中的关键参数如表VIII所示,

image-20230704103225379

所构建的知识图包含2386个节点和2769条边,部分如图8所示。

image-20230704103233166

缺陷日志检索的统计结果

image-20230704104034498

如表9所示,所提出的基于知识图的半结构化表示在三个指标中表现最好,这证明了表示模块的具体设计可以有效提高整体效果。知识图通过直接表示关系,实现知识推理,从而更深入地理解文本信息。为了给出更直观的解释,我们选择了表X中的两组缺陷日志进行说明。

image-20230704104053990

对于每一种表示方法,判断每一组中两个缺陷日志的一致性,结果如表XI所示。

image-20230704104115618

在表X中,A1和A2指的是相同的缺陷,但对缺陷设备和部件的描述有很大的不同。与A2相比,A1缺少缺陷设备“变压器”,并且没有说明元件“分接开关”的类型是有载还是离路。因此,基于结构化形式的三种表示方法无法识别A1和A2的一致性。然而,知识图模型可以通过节点的连接,推理出两个缺陷日志对应的路径是相同的,如图9所示,其中灰色节点为标记出的缺陷日志对应的节点,日志对应的路径用粗体边突出显示(下同)。

image-20230704104215053

image-20230704104249171

V. 结论

提出了一种适用于电力设备运维的文本挖掘框架。我们的主要创新是针对电力设备运维中短文本的特点,对框架的各个模块提出了具体的设计,使框架更适合电力行业的文本挖掘。通过两个与缺陷程度判断和缺陷处理决策相关的案例研究,论证了短文本挖掘框架对实际应用的指导作用。同时,两个案例研究的结果表明,对每个模块的具体设计对提高电力设备运维中短文本挖掘的整体性能是有益的。

在电力设备运维中,短文本挖掘研究的进一步完善主要有两个方面。一是通过句法分析等技术增强短文本挖掘框架的可解释性,使其能够以更接近人类思维的方式理解文本数据。二是构建考虑所有数据形式的通用数据融合模型,进一步提高精度,拓宽应用领域。这两个方面都将是我们未来研究的重要方向。


http://www.ppmy.cn/news/714782.html

相关文章

Agilent/HP 8753D网络分析仪 30kHz-6GHz

性能特点: *频率范围:30kHz~3或6GHz *带有固态转换的集成化S参数测试装置 *达110dB的动态范围 *快的测量速度和数据传递速率 *大屏幕LCD显示器加上供外部监视器用的VGA输出 *同时显示所有4个S参数 *将仪器状态和数据存储/调用到内置软盘驱动…

一文了解Docker之网络模型

目录 1.Docker网络 1.1 Docker网络模型概述 1.2 Docker网络驱动程序 1.2.1 host模式 1.2.2 bridge模式 1.2.3 container模式 1.2.4 none模式 1.3 Docker网络命令示例 1.3.1 创建一个自定义网络 1.3.2 列出所有网络 1.3.3 连接容器到网络 1.3.4 断开容器与网络的连接…

2022 基于SpringBoot的API文档管理系统 接口文档管理系统

2022 基于SpringBoot的API文档管理系统 预览地址:http://apisystem.liuyanzhao.com 详细介绍地址:2022 基于SpringBoot的API文档管理系统 接口文档管理系统 | 言曌博客 代码地址:GitHub - saysky/ApiSystem: SpringBoot的API文档管理系统 …

JavaWeb企业在线文档管理系统

扫码学习 本项目使用JSP、Servlet技术进行开发,项目主要是完成一个企业在文档管理的功能,不同的员工登录后会显示不同的菜单,操作的权限会根据用户属于的角色取出所有的权限,普通用户可以增加文档,部门经理对本部门的…

易度文档管理系统功能特性之预览

近年来,互联网上各种视频分享、图片分享、文档分享网站越来越多,为用户提供了良好的内容阅读体验,在线预览已经变成用户固有使用习惯。而各大企业使用文档管理系统也开始需要在线预览这个需求。 易度文档管理系统为企业搭建的是一个各类数字资…

在线文件管理系统,仿百度云、有道云

日常开发或工作中,总会遇到各种各样的文件图片,长期放在电脑上,有时候换电脑文件就丢失了,或者太懒不分类就会出现找不着的情况。如果将这些资料放在云盘上当然可以解决这些问题,但是对于私密资料、内部资料&#xff0…

文档管理系统解决方案

在所有研究机构及已通过或正努力通过ISO9001标准的单位中,一般存在大量的工程与技术文档,人工管理及检索这些文档工作量非常大,极大地影响了工作效率;同时由于某些文件通常存在多个版本,如何保证工作人员手中文件版本的一致性是文档管理中经常要遇到的问题。 为了解决上述…

计算机文档管理系统,标准文档管理系统

功能介绍 一、概述: 标准文档管理系统充分贯彻ISO质量体系的管理思想,利用先进的计算机软件技术,有效地控制各文档的产生、管理文档的存取访问、控制文档的分发、监控文档的流转过程。 文档管理系统的功能具体包括:文件类别、文件…