#01
IT运维环境
发生哪些变化?
—
在数字化转型的浪潮之下,一方面,企业IT环境变得多样化,另一方面,用户对业务稳定性的严格要求使IT运维团队需要更快地做出响应,所以运维将会是未来IT管理的重要一环。
1、运维对象变化
在机房动环、物理设备基础上增加了虚拟机、 云平台、容器、PaaS组件、应用系统等软件层面的元素;
2、运维流程
从以故障和事件为触发的被动响应模式向以应用持续稳定运行为目标的主动预防式转型;
3、运维工具
也从监控和处置分离的简单工具时代向以全流程监控、联动处置和智能分析为核心的智能运维平台转型;
从稳态到敏态,传统运维势必会从稳定性保障的后台角色逐渐走向主动预防的IT运营中心,成为IT价值体现的关键环节。
#02
运维工作
如何主动预防?
—
主动预防,不再兵来将挡水来土掩,而是意味着运维工作的计划性、可控性和预见性。我们从四个方面调优。
1、基础工具--全栈监控
能够对所有类型的数据中心IT资产的运行指标进行实时监控,这是主动预防式运维的基础能力。
2、应用前提--精准告警
如果误报漏报较多,既增加了运维工程师的工作量,又很难要求每一个异常事件形成闭环。
3、管理优化--固化流程
异常谁来处理,要求多长时间处理完成,处理结果能否验证,这是流程固化的三个基本要素
4、持续改进--数据呈现
通过数据呈现,发现系统稳定运行和运维绩效改进的关键点
核心目标
提前发现异常,在重大故障发生前及时排除异常,从而保障系统的不间断运行,这是主动式预防·运维的核心目标。
#03
LinkSLA
主动式预防运维实践
—
一、客户认可
在经历多次的方案沟通后,客户最终认同的三个核心:
1、机器学习算法能够大幅提高报警的准确性,使告警更贴合用户系统运行实际状况。
2、SaaS方式部署,用户侧基本零安装,基本没有维护成本和技术要求。
3、提供在线值守服务和专家远程服务,大大缓解用户运维人力资源和技术能力不足的困境。
LinkSLA不仅提供工具,还实质性地参与用户主动式预防的运维过程。用户通过服务、工具的有效性决定是否续费,降低使用成本和未来的沉默成本。
二、实践亮点
1、 7*24 在线值守
moc工程师实时在线监测平台告警信息,进行筛查和初步定位后生成工单通知用户工程师;工单处理闭环,既降低用户工程师的工作量,也过滤了无效告警和工单。
▲7*24在线,工单闭环
2、全栈监控
实现设备、系统软件、应用软件、安全日志的统一监控。
▲全栈监控
3、机器学习算法,实现精准告警。
区别于传统静态阈值的告警算法,机器学习算法进行历史数据的训练,发现的业务运行常态中的异常,大大提高告警的准确性,也提高值守工程师的工作效率。
▲AI机器学习算法告警详情
4、丰富的大屏呈现提高了运维工作的可观测性
▲运维视图,方便查看工单处理响应和完成的当前绩效
▲网络拓扑,实时反馈节点设备状态,流量异常
▲业务视图展示系统健康度,可查看业务系统整个IT链路(网络、数据库、中间件、存储等)的实时状况。
5、基于资产价值定义固化流程
▲基于资产价值和事件严重性定义工单级别
-
不同级别的工单有固化的流转过程和规定的响应时间及完成事件
-
值守工程师会追踪工单处理过程,并形成系统上的过程记录和必要的知识积累。
#04
用户体验
运维竟能如此简单
—
1、运维成本降低
SaaS开箱即用的特点,降低用户侧安装调试和学习成本。
moc在线值守,帮助用户关注系统健康状况,并提供专业的技术支持,减少技术成本和人力成本支出。
2、非计划性停机故障不再来
过去客户平均每年会产生20次左右的非计划性停机事件,上线LinkSLA智能运维后,未产生一次非计划停机事件。实时监测每个业务组件的指标、日志进行实时监控,主动预防,将意外和风险降到最低。
3、告警减少65%,MTTR减少30%
误报、错报、漏报是运维常见问题,处理告警需要付出相应的时间成本和技术成本,并且增加系统的风险成本。
使用LinkSLA智能运维,告警减少了65%,MTTR减少了30%。
4、问题处理,从1小时降低至15分钟
AI机器学习算法,进行趋势性监测分析,实时监测,能够提前发现问题,准确定位,快速处理问题。
运维工作,如果无法面面俱到,但求主动预防,精准狙击。
扫码试用👇
LinkSLA智能运维管家
扫描“二维码”,开启高效运维
声明:原创内容,转载请注明。