云栖实录 | 智能运维年度重磅发布及大模型实践解读

ops/2024/10/15 20:06:07/

本文根据2024云栖大会实录整理而成,演讲信息如下:

演讲人:

钟炯恩 | 阿里云智能集团运维专家

张颖莹 | 阿里云智能集团算法专家

活动:

2024 云栖大会 AI+ 可观测专场 -智能运维云原生大规模集群GitOps实践

2024 云栖大会 AI 运维专场 -大模型在大数据智能运维的应用实践

近年来,AIOps已成为IT运维市场的重要发展方向之一,各种技术层出不穷,但在应对大规模运维场景时仍显力不从心。面对越来越大的运维规模,大家都在关注是否有同时兼顾稳定性、成本和效率的运维方案来应对集群管理的复杂性。

云原生大规模集群场景的GitOps方案重磅发布

阿里云大数据运维团队运维专家钟炯恩在分享中提出:基于OAM云原生模型,可以实现研发与运维人员的关注点分离,使得不同角色的人员能在同一个工程中进行代码以及交付的协作,进而完成完整的云原生开发与部署。基于快捷且清晰的云原生运维管理方案,该研发及运维团队支撑了每天500+次的云原生部署。

在完整的云原生方案之上,阿里云大数据运维团队在调研业界的常见GitOps方案之后,落地了一套适合大规模集群场景的GitOps方案。该方案同时兼顾了变更的过程管理和终态管理,实现了变更的自动化、代码化、透明化。GitOps实现中关键细节在于基于自研的IaC语法,将git diff自动转换成变更计划.

GitOps在智能运维领域的关键作用:收敛运维的操作入口,提供大模型优化的操作平面。同时钟炯恩强调,智能运维是在已有的运维方案支持了稳定性、成本、效率需求之后的锦上添花之举,如果基础运维能力构筑不扎实就引入智能运维,很容易引发更大稳定性风险。

大模型在大数据智能运维的应用实践

随着大模型技术的演进,大模型技术智能运维领域带来了前所未有的推动力。经过八年的深耕,阿里云大数据团队在智能运维领域积累了丰富应用场景。

图片

阿里云计算平台算法专家张颖莹分享了大模型在大数据智能运维的应用实践,从大数据运维的业务背景出发,主要聚焦于两大核心议题:智能问答和智能诊断。

在智能问答场景中,引入了检索增强生成(RAG)方法,有效解决了大模型应用中的幻觉问题和知识更新缓慢问题。同时在知识构建和检索阶段实施了多项优化,包括多粒度知识抽取框架和RAG On Graph算法,极大提高了知识关联性和检索精度。

智能诊断方面,张颖莹介绍基于多智能体框架的平台诊断系统。为了模拟现实中故障应急团队的协作模式,引入了智能体Agent的概念,使大模型具备更高的主观能动性和灵活性,并根据系统模块完成了Agent的角色设定。而Agent的工具箱中则整合了指标异常检测、日志异常检测和历史故障学习等核心工具,实现了高效的数据分析和决策支持。此外,通过设计模拟神经网络反馈机制的工作流,可以确保各模块智能体有效协同,减少信息不对称和误差累积,最终由系统Agent综合分析并给出诊断结论。

在工程架构层面,如何构建合理框架以保障大模型应用的时效性和稳定性,涵盖数据层、算法服务层及大模型服务层的高效组织和管理是重中之重。团队通过解耦工具开发与Agent开发,实现算法复用和本地到云端的无缝部署,增强了可观测性和开发效率,为大模型的持续优化和规模化应用奠定了坚实基础。

总结而言,阿里云大数据运维团队通过智能问答和智能诊断的实践,展示了大模型在智能运维领域的巨大潜力,不仅提升了运维效率和问题解决能力,也为行业提供了宝贵的实践经验和技术启示。未来,团队将继续在模型能力强化、人机交互优化、工作流编排灵活性及大模型运维流程自动化等方面进行探索,推动智能运维技术的边界拓展,促进更多创新成果的诞生与分享。


http://www.ppmy.cn/ops/126092.html

相关文章

简单认识Maven 1

1.基本概念 Maven 是一个开源的项目管理和构建工具,主要用于 Java 项目,但也支持其他基于 JVM(Java Virtual Machine)的项目,如 Scala、Groovy 等。它基于项目对象模型(Project Object Model,P…

2.C++经典实例-计算两个数的最小公倍数

用户输入两个数字,然后通过程序计算出这两个数字的最小公倍数: 两个或多个整数公有的倍数叫做它们的公倍数,其中除0以外最小的一个公倍数就叫做这几个整数的最小公倍数(Least Common Multiple,简写为 lcm)…

产品经理内容分享(二):AI产品经理的入门路线图

引言 想象这样一个场景:早晨的阳光穿透窗帘,投射在新一代智能机器人上,它正静静等待着你的第一个命令开始全新的一天。这样的场景听起来像是科幻小说里的情节,但实际上,这正是AI产品经理们工作的成果。如果你对这样的…

Spring Boot教学资源库:开发者的成长之路

2 相关技术简介 2.1Java技术 Java是一种非常常用的编程语言,在全球编程语言排行版上总是前三。在方兴未艾的计算机技术发展历程中,Java的身影无处不在,并且拥有旺盛的生命力。Java的跨平台能力十分强大,只需一次编译,任…

Linux 系统中配置 Wi-Fi 接口作为客户端,并连接到 Wi-Fi 路由器

方法一:使用 NetworkManager(推荐) 对于现代 Linux 发行版(如 Ubuntu、Fedora 和 CentOS),NetworkManager 是该连接的主要管理工具。你可以使用 nmcli 命令行工具或图形界面(如 GNOME 的网络设…

力扣刷题-算法基础

hello各位小伙伴们,为了进行算法的学习,小编特意新开一个专题来讲解一些算法题 1.移除元素. - 力扣(LeetCode) 本题大概意思是给定一个数组和一个数val删除与val相同的元素,不要改变剩余元素的顺序,最后返回剩余元素的个数。 我们在这里使用双指针,这里的双指针并不是…

大数据-159 Apache Kylin 构建Cube 准备和测试数据

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

YOLOv10改进策略【注意力机制篇】| 2024 SCSA-CBAM 空间和通道的协同注意模块

一、本文介绍 本文记录的是基于SCSA-CBAM注意力模块的YOLOv10目标检测改进方法研究。现有注意力方法在空间-通道协同方面未充分挖掘其潜力,缺乏对多语义信息的充分利用来引导特征和缓解语义差异。SCSA-CBAM注意力模块构建一个空间-通道协同机制,使空间注意力引导通道注意力增…