文章目录
- day10
- 机器学习其他视角
- 负载模式、并行化计算
- 新范式
- 时序算法简介
day10
今天是第10天,昨日主要是针对关联规则算法、深度学习算法进行阐述,讲解了常见的关联规则以及常见的深度学习算法,今日主要是针对第三章节最后一节机器学习算法的其他视角以及开启第四章节:时序数据挖掘算法
机器学习其他视角
负载模式、并行化计算
了解不同算法的特点,针对其特点分析其计算的模式,比如迭代的还是非迭代的、存储在内存还是磁盘、输入数据需要大量历史结构化数据还是小数据标量数据、输出是什么样式。而不同的算法也有其资源的瓶颈:计算瓶颈、内存瓶颈、I/O访问瓶颈,从而需要提供任务并行化、数据并行化、更快的操作之类。在并行计算中,不同计算节点的交互类型有3类
-
通信:进程间传数(共享变量、消息传递、参数传递)
-
同步:进程间相互等待或者继续执行的操作,包含时钟同步、控制同步、数据同步
-
聚合:将分进程的计算结果进行整合(规约、扫描)
从而产生以下5种并行方式
- 批量同步并行(BSP):程序通过一组超级步组成,步内各自并行计算,步间通信同步
- 主从并行:主进程串行执行并且协调任务,子进程计算任务,需要划分设计并结合相并行
- 分治并行:父进程把负载分割并指派给子进程,不做平衡负载
- 流水线并行:把进程划分成流水线,依次依赖,数据开始流动
- 工作池并行:进程从工作池中取任务执行
新范式
-
半监督学习
- 数据收集与准备:首先收集大量的设备运行数据,包括正常操作状态和少量故障或异常情况的数据。
- 模型选择:选择适合半监督学习的算法,如自训练、共训练或者基于图的方法等。
- 初始模型训练:用标注的故障数据进行初步训练,以获得一个基础模型。
- 未标注数据利用:将该模型应用于大量未标注的正常运行数据,尝试预测这些数据点的状态。
- 伪标签生成:对于模型预测置信度较高的未标注数据,赋予其“伪标签”,并将其加入训练集。
- 迭代改进:重复上述步骤,不断更新模型,直到性能收敛或达到预定标准。
- 案例应用:在数据中心中,通过半监督学习可以建立一个能够识别潜在硬件问题的系统。即使没有大量已知故障样本,也能有效检测到新出现的问题。
-
主动学习
- 初始化:开始时使用小规模的标注数据集训练初始模型。
- 查询策略设计:定义如何选择最需要人工标注的数据点,比如不确定性采样、多样性采样等。
- 专家参与:根据查询策略挑选出的数据提交给领域专家进行标注。
- 模型更新:用新增加的标注数据重新训练或微调现有模型。
- 循环优化:持续执行查询-标注-更新的过程,直到模型性能满足要求或预算耗尽。
- 案例应用:数据中心可以通过主动学习减少维护团队的工作量,只对那些最有可能揭示未知故障模式的数据进行审查,从而提高效率。
-
元学习
- 任务定义:明确元学习的目标是快速适应新任务,例如不同类型的服务器故障诊断。
- 基础模型构建:开发一个通用的基础模型,它可以接收不同类型的任务作为输入。
- 任务分布模拟:创建一系列类似但又不同的任务,让模型在这个分布上进行训练。
- 快速适应机制:引入参数调整机制,使得模型能够在看到新的任务实例后迅速调整自身。
- 评估与迭代:测试模型对新任务的适应能力,并根据结果进一步优化。
- 案例应用:当数据中心引入新型号服务器时,元学习模型可以根据之前积累的知识快速调整,为新硬件提供有效的监控和故障预测服务。
-
多模态学习
- 多源数据融合:整合来自多个传感器的不同类型数据,如温度、湿度、电力消耗等。
- 特征提取:为每个模态提取有意义的特征表示。
- 跨模态关联建模:探索不同模态之间的关系,找出它们之间的相互作用和依赖性。
- 联合表示学习:构建一个统一的框架,将所有模态的信息融合在一起形成综合表示。
- 决策制定:基于综合表示做出最终判断,如预测能源消耗趋势或发现异常事件。
- 案例应用:在数据中心内,多模态学习可以帮助全面理解环境条件对IT设备的影响,进而实现更加精准的能量管理和故障预警。
-
联邦学习
- 本地模型训练:各个数据中心在其本地环境中独立地训练自己的机器学习模型,不共享原始数据。
- 参数聚合:通过安全通信协议,各中心仅上传模型更新(如权重变化),由中央服务器负责汇总这些更新。
- 全局模型同步:中央服务器将聚合后的更新应用于全局模型,并将最新版本分发回各个数据中心。
- 隐私保护措施:在整个过程中实施严格的隐私保护技术,确保数据的安全性和用户隐私不受侵犯。
- 持续改进:随着更多数据中心加入网络,联邦学习系统能够不断进化,提升整体性能。
- 案例应用:跨国公司可能在全球范围内运营多个数据中心,采用联邦学习可以在不影响数据主权的情况下,让所有地点共享最新的机器学习成果,同时保持各自数据的安全和合规性。
时序算法简介
在工作几年中接触最多的就是时序数据,得益于本人所处的行业大多数都是物理动力、环境设备所以能够表征的也就是其不同批次、不同时间、不同点位的时序数据,时序数据挖掘算法主要是认为8类,后续作者也是对每类单独成每个小节讨论
- 时序分割:从时间维度将长序列分为若干子序列,不同的子序列对应不同的工况类别
- 时序分解:按照变化模式,将时间序列分解成若干变量
- 时序再表征:用于进行时间序列的简化或者特征提取,为分类提供支持
- 序列模式:主要用于发现时间序列中频繁出现的子序列/模式,或者是事件间的时序模式关系
- 异常检测:用于发现时间序列中的异常点、子序列或模式
- 聚类:将若干时间序列聚类,为基于时序片段的分类/回归提供支持
- 分类、预测:与机器学习中的分类和回归问题类似,但关键在于融入时序结构特征
具有不同特性时时间序列对应的分析算法