工业大数据分析算法实战-day10

server/2024/12/21 22:27:12/

文章目录

  • day10
    • 机器学习其他视角
      • 负载模式、并行化计算
      • 新范式
    • 时序算法简介

day10

今天是第10天,昨日主要是针对关联规则算法、深度学习算法进行阐述,讲解了常见的关联规则以及常见的深度学习算法,今日主要是针对第三章节最后一节机器学习算法的其他视角以及开启第四章节:时序数据挖掘算法

机器学习其他视角

负载模式、并行化计算

了解不同算法的特点,针对其特点分析其计算的模式,比如迭代的还是非迭代的、存储在内存还是磁盘、输入数据需要大量历史结构化数据还是小数据标量数据、输出是什么样式。而不同的算法也有其资源的瓶颈:计算瓶颈、内存瓶颈、I/O访问瓶颈,从而需要提供任务并行化、数据并行化、更快的操作之类。在并行计算中,不同计算节点的交互类型有3类

  • 通信:进程间传数(共享变量、消息传递、参数传递)

  • 同步:进程间相互等待或者继续执行的操作,包含时钟同步、控制同步、数据同步

  • 聚合:将分进程的计算结果进行整合(规约、扫描)

从而产生以下5种并行方式

  • 批量同步并行(BSP):程序通过一组超级步组成,步内各自并行计算,步间通信同步
  • 主从并行:主进程串行执行并且协调任务,子进程计算任务,需要划分设计并结合相并行
  • 分治并行:父进程把负载分割并指派给子进程,不做平衡负载
  • 流水线并行:把进程划分成流水线,依次依赖,数据开始流动
  • 工作池并行:进程从工作池中取任务执行

新范式

  • 半监督学习

    • 数据收集与准备:首先收集大量的设备运行数据,包括正常操作状态和少量故障或异常情况的数据。
    • 模型选择:选择适合半监督学习的算法,如自训练、共训练或者基于图的方法等。
    • 初始模型训练:用标注的故障数据进行初步训练,以获得一个基础模型。
    • 未标注数据利用:将该模型应用于大量未标注的正常运行数据,尝试预测这些数据点的状态。
    • 伪标签生成:对于模型预测置信度较高的未标注数据,赋予其“伪标签”,并将其加入训练集。
    • 迭代改进:重复上述步骤,不断更新模型,直到性能收敛或达到预定标准。
    • 案例应用:在数据中心中,通过半监督学习可以建立一个能够识别潜在硬件问题的系统。即使没有大量已知故障样本,也能有效检测到新出现的问题。
  • 主动学习

    • 初始化:开始时使用小规模的标注数据集训练初始模型。
    • 查询策略设计:定义如何选择最需要人工标注的数据点,比如不确定性采样、多样性采样等。
    • 专家参与:根据查询策略挑选出的数据提交给领域专家进行标注。
    • 模型更新:用新增加的标注数据重新训练或微调现有模型。
    • 循环优化:持续执行查询-标注-更新的过程,直到模型性能满足要求或预算耗尽。
    • 案例应用:数据中心可以通过主动学习减少维护团队的工作量,只对那些最有可能揭示未知故障模式的数据进行审查,从而提高效率。
  • 元学习

    • 任务定义:明确元学习的目标是快速适应新任务,例如不同类型的服务器故障诊断。
    • 基础模型构建:开发一个通用的基础模型,它可以接收不同类型的任务作为输入。
    • 任务分布模拟:创建一系列类似但又不同的任务,让模型在这个分布上进行训练。
    • 快速适应机制:引入参数调整机制,使得模型能够在看到新的任务实例后迅速调整自身。
    • 评估与迭代:测试模型对新任务的适应能力,并根据结果进一步优化。
    • 案例应用:当数据中心引入新型号服务器时,元学习模型可以根据之前积累的知识快速调整,为新硬件提供有效的监控和故障预测服务。
  • 多模态学习

    • 多源数据融合:整合来自多个传感器的不同类型数据,如温度、湿度、电力消耗等。
    • 特征提取:为每个模态提取有意义的特征表示。
    • 跨模态关联建模:探索不同模态之间的关系,找出它们之间的相互作用和依赖性。
    • 联合表示学习:构建一个统一的框架,将所有模态的信息融合在一起形成综合表示。
    • 决策制定:基于综合表示做出最终判断,如预测能源消耗趋势或发现异常事件。
    • 案例应用:在数据中心内,多模态学习可以帮助全面理解环境条件对IT设备的影响,进而实现更加精准的能量管理和故障预警。
  • 联邦学习

    • 本地模型训练:各个数据中心在其本地环境中独立地训练自己的机器学习模型,不共享原始数据。
    • 参数聚合:通过安全通信协议,各中心仅上传模型更新(如权重变化),由中央服务器负责汇总这些更新。
    • 全局模型同步:中央服务器将聚合后的更新应用于全局模型,并将最新版本分发回各个数据中心。
    • 隐私保护措施:在整个过程中实施严格的隐私保护技术,确保数据的安全性和用户隐私不受侵犯。
    • 持续改进:随着更多数据中心加入网络,联邦学习系统能够不断进化,提升整体性能。
    • 案例应用:跨国公司可能在全球范围内运营多个数据中心,采用联邦学习可以在不影响数据主权的情况下,让所有地点共享最新的机器学习成果,同时保持各自数据的安全和合规性。

时序算法简介

在工作几年中接触最多的就是时序数据,得益于本人所处的行业大多数都是物理动力、环境设备所以能够表征的也就是其不同批次、不同时间、不同点位的时序数据,时序数据挖掘算法主要是认为8类,后续作者也是对每类单独成每个小节讨论

  • 时序分割:从时间维度将长序列分为若干子序列,不同的子序列对应不同的工况类别
  • 时序分解:按照变化模式,将时间序列分解成若干变量
  • 时序再表征:用于进行时间序列的简化或者特征提取,为分类提供支持
  • 序列模式:主要用于发现时间序列中频繁出现的子序列/模式,或者是事件间的时序模式关系
  • 异常检测:用于发现时间序列中的异常点、子序列或模式
  • 聚类:将若干时间序列聚类,为基于时序片段的分类/回归提供支持
  • 分类、预测:与机器学习中的分类和回归问题类似,但关键在于融入时序结构特征

具有不同特性时时间序列对应的分析算法
在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/server/152065.html

相关文章

[SZ901]JTAG高速下载设置(53Mhz)

SZ901最高支持JTAG 53MHz的时钟频率,下载bit文件和固化程序的速度提升非常明显。 首先设置参数 1,将JTAG0 分频系数修改为3 2,设置参数,更新参数。(完成) 打开VIVADO VIVADO 正常识别FPGA,速…

Java设计模式 —— 【结构型模式】装饰者模式详解

文章目录 前言结构说明案例演示小结静态代理和装饰者的区别 前言 在日常生活中,我们常会遇到一种场景:去快餐店吃饭,里面琳琅满目的主食,还有各式各样的配菜作为消费者,只管挑选就行,但是如果让我们来设计…

96 vSystem

vSystem系统 1 技术背景 网络虚拟化旨在构建出一套与网络底层物理拓扑相互独立的逻辑网络环境,提供给不同需求的用户使用。基于这种思想,诞生出了 VLAN 技术和 VPN 技术。近年来, 随着以 VMM(Virtual Machine Monitor&#xff0c…

ensp 静态路由配置

A公司有广州总部、重庆分部和深圳分部3个办公地点,各分部与总部之间使用路由器互联。广州、重庆、深圳的路由器分别为R1、R2、R3,为路由器配置静态路由,使所有计算机能够互相访问,实训拓扑图如图所示 绘制拓扑图 给pc机配置ip地址…

1.metagpt中的软件公司智能体 (PrepareDocuments Action)

1. PrepareDocuments Action 定义了一个 PrepareDocuments 类,它继承自 Action 类,并实现了一个用于准备项目文档的功能。具体来说,它的主要作用是初始化项目文件夹,设置 Git 环境,并将新增的需求写入 docs/requireme…

电商数据采集电商,行业数据分析,平台数据获取|稳定的API接口数据

电商数据采集可以通过多种方式完成,其中包括人工采集、使用电商平台提供的API接口、以及利用爬虫技术等自动化工具。以下是一些常用的电商数据采集方法: 人工采集:人工采集主要是通过基本的“复制粘贴”的方式在电商平台上进行数据的收集&am…

如何更改 maven 指定的 java 版本 set JAVA_HOME=C:\Program Files\Java\jdk1.8

当我们用 mvn 在终端执行的时候 例如 mvn clean test执行结果如下: 此时我们想要修改 maven 指定的JAVA_HOME 找到maven的安装目录,打开 mvn.cmd 然后鼠标右键,点击编辑按钮 将 第一行 JAVA_HOME 设置为自己的本地java目录即可 然后再次…

OpenLinkSaas 2025年1月开发计划

先来看看OpenLinkSaas的大目标 在OpenLinkSaas的产品目标中,让开发人员更加方便的使用云资源是目标之一。通过各大云厂商的API,来可视化云上基础设施的数据是远远不够的。我们准备在2025年1月份增加方便管理和运营研发场景下服务器的能力。 这部分的功能…