【系统可靠性】搭建可靠性系统工程实践

news/2024/11/15 0:47:35/

 

 系统可靠性:互联网时代的挑战

SLA保证

  • 事故时长45 分钟内--4个9               
  • 事故时长5小时--打破 3个9的承诺 
  • 事故细节:亚马逊 6 页纸 技术细节

系统可靠性

  • 影响半径---->从低往上扩大;从上往下是依赖;
  • 单节点是root cause;大规模;测试、架构设计很难预防;
  • 观点:高流量、低时延、数据一致性、快速上线 要求;
  • 【自研系统】    【Cloud Native(搭积木 选择block)】    【云计算(脏累的活,打包架构方案)】    3套系统5种状态 (桌面上---架构师 CNCF 解决方案)
  • 系统可靠性 = f(发生概率,持续时间,影响半径)

事故原因分析

  • 人为失误:删除数据系统;          -- 常态
  • 系统故障:大集群超过1W个节点 -- 常态
  • 没有pre_prod环境
  • 日常OPS操作  -- 审批等

减少事故方案

  • 减少爆炸半径:影响控制在50%内,通过限流、降级系统还可以运作;
  • 金丝雀发布、报警(ftf):抢先发现问题
  •  微软:日志、监控 报警如果很敏感,报警误报--->直接关闭(组织架构决定了系统架构和做事方法:不完善的还不如没有)
  • 亚马逊:devops 开发、测试、运维 同一个团队中(24*7 相应报警)

 系统可靠性RCA分享

  •  SOP 标准操作流程;故障操作手册;自查;自检;长时间演练、有预案(注意:有序的预案);
  •  dashbord 仪表盘;
  •  War-Room 会议室; root-cause :所有节点数据误删,但有备份;
  •  TTD 事故监测时间;2分钟
  •  TTR 事故恢复时间;
  •  如果100个团队有问题,个人一般不会是Trouble Maker;

 复盘整改


 good

  •      事件报警及时
  •      相应升级迅速
  •      数据备份恢复正常
  •      团队应急有序

 bad

  •      生产环境误操作    --  冲击粗壮神经
  •      冷启动多年未试
  •      冷启重试缺少规范  -- 雪崩效应的原因

商旅实践


 方法论(务虚)
 一


 Quality is not an act, it is a habit   品质不是一时的表现,是长久的习惯 

                                                                                                    - 亚里士多德        

  •  好的品质是好的习惯造成的;
  •  不好的品质...当你背着腾讯、阿里的光环发现问题时不好的习惯,一定要清醒的认识到到它是根深蒂固的
  •  不然技术改造、推动变换 效果可能都不会太好 -- 经验教训

 二


 Good intentions don't work, mechanisms do. 良好的意愿是没有用的,建立机制才是关键!
                                                                                                                                  - 贝索斯

  •  COE模版 杜绝出现口号,需要具体措施;
  •  一定要培养良好的工程习惯;
  •  一定要有自动的机制Mechanism;
  •  design for failure 模版 1 2 3 详尽的步骤;

 

 务实

  •  生产数据监控--系统数据监控--SRE黄金三要素
  •  基于现象的监控--统一告警平台--综合相应平台
  •  TTD TTR 作为KPI
  •  5分钟检测,10分钟恢复 做不到就要严格的复盘
  •  控制影响半径--->DC 隔离、同城双活
  •  技术展望

 

 


http://www.ppmy.cn/news/38223.html

相关文章

C++ [内存管理]

本文已收录至《C语言》专栏! 作者:ARMCSKGT 目录 前言 正文 计算机中内存分布 C语言的内存管理 内存申请函数 内存释放函数 C内存管理 new操作符 delete操作符 特性总结 注意 原理探究 operator new和operator delete函数 operator new的底层…

Java on VS Code 3月更新|AWT 代码补全、启动程序消息显示与 Spring Apps 数据可视化改进

作者:Nick Zhu - Senior Program Manager, Developer Division at Microsoft 排版:Alan Wang 大家好,欢迎来到我们的三月更新!在此博客中,我们将为您带来一系列基础编码体验的改进,例如 AWT 项目相关的代码…

关于Stanza工具包的使用

目录 一、Stanza简要介绍 二、Stanza使用 2.1 安装方法 2.2 使用说明 2.2.1 以英文文本说明: 2.2.2 以中文文本说明: 一、Stanza简要介绍 Stanza是一个Python自然语言处理工具包,它是斯坦福自然语言处理工具的升级版。它提供了一系列的…

anomalib代码解析之三:训练过程

咱们吃个回头草吧 上面的图中,第55行,藏有玄机。前面我们没详细讲。就是这行,指定了,cfa算法,怎么训练的,算法实现细节都在这里。 那我们就得看get_model函数了: def get_model(config: DictC…

Python矩阵分解之QR分解

文章目录QR和RQ分解其他函数QR和RQ分解 记AAA为方阵,P,QP, QP,Q分别为正交单位阵和上三角阵,则形如AQRAQRAQR的分解为QR分解;形如ARQARQARQ的分解为RQ分解。 在scipy.linalg中,为二者提供了相同的参数,除了待分解矩阵…

SPSS27破解安装后,出现应用程序无法正常启动(0xc000007b)

破解完SPSS 27软件后,点击图标出现下图错误 可以尝试以下方法: 1. 在安装目录下找到VC开头的文件夹 2. 点击此软件进行修复 若修复完成,重新启动SPSS软件即可。 3. 若提示错误,显示如下界面,进行下面的方法 4. 下…

用户行为分析zhi应用分析模型

(1)基于AARRR漏斗模型分析用户行为 本文通过常用的电商数据分析指标,采用AARRR漏斗模型拆解用户进入APP后的每一步行为。AARRR模型是根据用户使用产品全流程的不同阶段进行划分的,针对每一环节的用户流失情况分析出不同环节的优化…

斐波拉契数列,有人买了一对小兔子,已知小兔子一个月后长成大兔子,大兔子每个月生一对小兔子,问:两年(24个月)之后,他一共有几对兔子。

[01]斐波拉契数列,有人买了一对小兔子,已知小兔子一个月后长成大兔子,大兔子每个月生一对小兔子,问:两年(24个月)之后,他一共有几对兔子。 第i月份大兔子小兔子总兔子1011210131124213532565387851381382192113341034…