2023双态IT北京用户大会回顾(一) | 基于运维数据治理的数智化转型

news/2024/11/17 1:41:08/

专题演讲人:擎创科技CTO 葛晓波

文末附有本场专题演讲视频

●前言

各行业的云原生发展程度各有不同,并不是所有业务应用都适合云原生的形态,如若过度追求云原生化反而会使得企业运维压力骤增,运维成本激增。

从数字化转型的角度结合自主可控要求,我们认为云原生化的本质应该是能够帮助企业更敏捷地应对业务变化、加速业务应用迭代,从而实现业务运营的更加高效。在云原生时代下,企业运维必须拥有数据思维,这样在面对敏稳两态、云上云下以及容器内外同步运行的局面时,才能更加主动、动态地去罗织、分析和处理数据,向历史数据要到答案,从未来数据中预见端倪。

一、无数据,不智能

从擎创过往7年的经验里总结,我们认为运维工作的核心是数据,而不是一味地、茫然地谋求算法更优化。只有数据规范化、标准化且具备准确性,才能为上层的消费场景提供有效价值,否则算法如何精妙,数据基础不稳,跑出来的结果也无法为企业运维乃至运营提供帮助。

擎创科技CTO 葛晓波

说归实际,本质上来讲运维的对象是软件、应用,对此而言无论是集中式、分布式亦或云原生,其实表象上是架构和技术在变化,但软件、应用的核心是不变的。很多企业发现到了云原生时代,运维变得更加难管,其原因并不是技术不行,而是因为最初的运维体系规划没有做好、规则没有定清等。

根据我们数年的实践总结,发现企业常会出现以下一些难题:

1.告警不精确

由于告警过多缺乏精度,导致很难厘清当下业务系统的工作状态,无法做到早于最终用户发现系统故障。

2.发现问题不及时

现有异常检测手段只能在故障发生前几分钟或十几分钟内发现问题,无法在业务调整完成后就快速发现端倪。

3.根因难找

应急处置后,没有合适的手段通过时间线重现故障、发现问题真正根因,因此同样问题可能反复出现。

4.排障经验难复用

缺乏知识库沉淀能力,无法有效保存和复用专家的排障经验。

上面的难题抛出来汇总后,还是落回数据本身,做好数据治理无可非议。我们希望数据治理的最终结果是能形成以运维对象为核心,能够全面关联日志、指标、告警、事件、调用链等数据的运维能力体系,实现全景可观测(如下图)。

企业一般想看到数据治理得当后,能够全面的被关联在一起,形成具有统一规范、统一标准的数据。也就是它能够与运维管理的对象(软件、应用等)相关联,运维管理的对象与对象之间也能相互关联,这样能够清晰快速的知道问题出现在哪里、为什么会出现以及如何快速处理,并在日后的运维工作中使这类故障都能够被提前预见、提前预防。

二、依托数据治理标准,建立运维体系

作为数智化转型的基础,需要建立一套涵盖数据收归、加工处理、存储分析、数据服务及使用等的全生命周期工具。要依据相应标准、规范和原则,对数据质量进行监测、改进及管理,并实现数据的安全定级、权限控制,同时使数据能够准确符合生命周期阶段,发挥应有的时效价值,以及准确地对外交付和输出数据价值。

说到标准、规范和原则,数据治理标准体系的有效落地就成为了关键。其实数据治理体系并不单单是针对数据本身,在依据国家、行业标准等定义好企业运维数据标准、管理标准、数据质量标准等同时,对于企业的组织架构、平台与工具的采用、流程与机制的设定等也应遵循一定的标准。

这样能够有效解决企业运维及运营的一些实际问题,比如下述两个例子:

01

“以平台工具规范为例,治理体系正式落地后,当下属部门想要采购新的告警工具时,首要考察的会是该工具产生的数据是否符合数据标准、能否被接入数据平台进行使用,如果不能则要求其调整数据格式或不予采购。在管理层面,将保证各部门不能仅仅因为工具好用就进行采购,进而避免因此出现工具数量激增、数据竖井化等问题。

02

“以数据生命周期规范为例,其实很多数据的信息密度很低但存放成本极高,假设某一监控工具A采集到的交易数据出现了十几分钟的延迟,那么这部分数据其实已经没有了时效性,但这部分数据依旧被存放了起来,这对于运维而言已经没有任何价值是极大的成本浪费。如果做好了数据治理体系,通过相关的数据质量及生命周期标准去管控,这部分数据就会被剔除,并会要求A工具进行优化,将数据采集和输出的时效性提高,以提升运维的整体效率。”

三、典型落地场景-全息监控

这里的全息监控,从本质上来讲就是通过对运维数据的综合治理后,构建一体化的监控平台,纳管应用及基础组件,再通过擎创自研的低代码工具组合,在运维中台上为不同的运维角色和团队展示各类运维数据,提供灵活不同的分析视角。比如从总览的视角查询单个应用状态,可以去详查它下面的拓扑、告警、日志等数据;从专业管理的视角想要做应用细分,可以通过查看交易码、返回码、交易码的组合,全面进行管理等等。

▲该场景已在某国有大行进行落地

这种全息监控,可以通过趋势和风险监测先于业务发现问题,能够通过动态阈值、指标偏离度分析、业务健康画像等手段,提供业务系统健康度的趋势分析和预测能力,发现系统运行隐患,在故障发生之前就提供预警通知能力,为事故处置预留时间,全方位提升企业运营的稳定性。

关于现场的更多细节,这里不多赘述,请在下方视频中进行了解~

基于运维数据治理的数智化转型


​擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

​了解更多运维干货与技术分享

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散


http://www.ppmy.cn/news/966678.html

相关文章

数字人是AI的UI,ChatGPT助推数字人升级为数智人

以ChatGPT为代表的AIGC智能工具与数字人结合后,将彻底改变人类与计算机的交互方式,使虚拟世界中的数字人对话更真实、更贴近人类,具有记忆和实现连续对话的能力;通过大量人工智能模型训练后数字人将提供更准确、更有价值的信息&am…

第五章运输层

1.运输层概述 之前课程所介绍的计算机网络体系结构中的物理层、数据链路层以及网络层它们共同解决了将主机通过异构网络互联起来所面临的问题,实现了主机到主机的通信。 但实际上在计算机网络中进行通信的真正实体是位于通信两端主机中的进程。 如何为运行在不同主…

chatGPT plus,OpenAI API开通

DePay虚拟信用卡是一款非常方便且实用的支付工具,特别是对于那些需要进行在线购买和支付的用户来说,它提供了许多优点和特色功能。以下是一些DePay虚拟信用卡的主要优点: 支持支付ChatGPT Plus和OpenAI API:如果您需要购买ChatGPT…

错了!王慧文要做的是OpenAl,不只是ChatGPT

出品 | 何玺 排版 | 叶媛 王慧文耐不住了! 日前,原美团联合创始人王慧文在社交媒体宣布进军AI领域,称要打造中国的“OpenAl”。 01 王慧文:组队拥抱新时代,打造中国OpenAl 王慧文是一个有着鲜明美团标签的人物&am…

OpenAl宣布ChatGPT和悄悄话API

ChatGPT和Whisper模型现在可以在我们的API上使用,使开发人员能够访问前沿语言(不仅仅是聊天!)和语音转文本功能。通过一系列系统优化,自去年12月以 来,我们已经为ChatGPT降低了90%的成本,现在我们正在将这些节省下来的成本 传递给…

ChatGPT作弊成风引担忧,OpenAI:正在自研审核工具

来源:机器之心 本文约2200字,建议阅读5分钟 本文介绍了OpenAl正在自研审核工具的情况。 「对学生有负面影响」,这么大责任 OpenAI 可担不起。 语言生成模型来了,学校的作业会不会从此变得形同虚设?近日,纽约…

a16z深度分析:AI 将创造哪些新的游戏玩法?

来源/a16z 编译/Nick 早期关于游戏中的生成式 AI 革命的讨论主要集中在 AI 工具如何提高游戏创作者的效率,使得游戏的制作速度比以前更快、规模更大。从长远来看,我们认为,AI 不仅能改变创造游戏的方式,还能改变游戏本身的性质。 …

Buidler DAO 蝗虫精选(19):Web3运营与增长的必读文章

Buidler DAO:Web3人才与项目孵化器 https://linktr.ee/buidlerdao 文章:Buidler DAO 编辑:文双 排版:Coucou 深度精选是我们推荐的本周市场热议主题下必读文章,取材自 Buidler DAO 认知蝗虫计划每日推送&#xff1b…