【系统可靠性】搭建可靠性系统工程实践

news/2024/11/15 0:47:35/

系统可靠性：互联网时代的挑战

SLA保证

事故时长45 分钟内--4个9
事故时长5小时--打破 3个9的承诺
事故细节：亚马逊 6 页纸技术细节

系统可靠性

影响半径---->从低往上扩大；从上往下是依赖；
单节点是root cause；大规模；测试、架构设计很难预防；
观点：高流量、低时延、数据一致性、快速上线要求；
【自研系统】【Cloud Native(搭积木选择block)】【云计算（脏累的活,打包架构方案）】 3套系统5种状态 (桌面上---架构师 CNCF 解决方案)
系统可靠性 = f(发生概率，持续时间，影响半径)

事故原因分析

人为失误：删除数据系统； -- 常态
系统故障：大集群超过1W个节点 -- 常态
没有pre_prod环境
日常OPS操作 -- 审批等

减少事故方案

减少爆炸半径：影响控制在50%内，通过限流、降级系统还可以运作；
金丝雀发布、报警（ftf）:抢先发现问题
微软：日志、监控报警如果很敏感，报警误报--->直接关闭（组织架构决定了系统架构和做事方法：不完善的还不如没有）
亚马逊：devops 开发、测试、运维同一个团队中（24*7 相应报警）

系统可靠性RCA分享

SOP 标准操作流程；故障操作手册；自查；自检；长时间演练、有预案（注意：有序的预案）；
dashbord 仪表盘；
War-Room 会议室； root-cause ：所有节点数据误删，但有备份；
TTD 事故监测时间；2分钟
TTR 事故恢复时间；
如果100个团队有问题，个人一般不会是Trouble Maker；

复盘整改

good

事件报警及时
相应升级迅速
数据备份恢复正常
团队应急有序

bad

生产环境误操作 -- 冲击粗壮神经
冷启动多年未试
冷启重试缺少规范 -- 雪崩效应的原因

商旅实践

方法论（务虚）
一

Quality is not an act, it is a habit 品质不是一时的表现，是长久的习惯

- 亚里士多德

好的品质是好的习惯造成的；
不好的品质...当你背着腾讯、阿里的光环发现问题时不好的习惯，一定要清醒的认识到到它是根深蒂固的
不然技术改造、推动变换效果可能都不会太好 -- 经验教训

二

Good intentions don't work, mechanisms do. 良好的意愿是没有用的，建立机制才是关键！
- 贝索斯

COE模版杜绝出现口号，需要具体措施；
一定要培养良好的工程习惯；
一定要有自动的机制Mechanism；
design for failure 模版 1 2 3 详尽的步骤；

务实

生产数据监控--系统数据监控--SRE黄金三要素
基于现象的监控--统一告警平台--综合相应平台
TTD TTR 作为KPI
5分钟检测，10分钟恢复做不到就要严格的复盘
控制影响半径--->DC 隔离、同城双活
技术展望

http://www.ppmy.cn/news/38223.html

相关文章

C++ [内存管理]

C++ [内存管理]

本文已收录至《C语言》专栏！ 作者：ARMCSKGT 目录前言正文计算机中内存分布 C语言的内存管理内存申请函数内存释放函数 C内存管理 new操作符 delete操作符特性总结注意原理探究 operator new和operator delete函数 operator new的底层…

阅读更多...

Java on VS Code 3月更新｜AWT 代码补全、启动程序消息显示与 Spring Apps 数据可视化改进

Java on VS Code 3月更新｜AWT 代码补全、启动程序消息显示与 Spring Apps 数据可视化改进

作者：Nick Zhu - Senior Program Manager, Developer Division at Microsoft 排版：Alan Wang 大家好，欢迎来到我们的三月更新！在此博客中，我们将为您带来一系列基础编码体验的改进，例如 AWT 项目相关的代码…

阅读更多...

关于Stanza工具包的使用

关于Stanza工具包的使用

目录一、Stanza简要介绍二、Stanza使用 2.1 安装方法 2.2 使用说明 2.2.1 以英文文本说明： 2.2.2 以中文文本说明： 一、Stanza简要介绍 Stanza是一个Python自然语言处理工具包，它是斯坦福自然语言处理工具的升级版。它提供了一系列的…

阅读更多...

anomalib代码解析之三：训练过程

anomalib代码解析之三：训练过程

咱们吃个回头草吧上面的图中，第55行，藏有玄机。前面我们没详细讲。就是这行，指定了，cfa算法，怎么训练的，算法实现细节都在这里。那我们就得看get_model函数了： def get_model(config: DictC…

阅读更多...

Python矩阵分解之QR分解

Python矩阵分解之QR分解

文章目录QR和RQ分解其他函数QR和RQ分解记AAA为方阵，P,QP, QP,Q分别为正交单位阵和上三角阵，则形如AQRAQRAQR的分解为QR分解；形如ARQARQARQ的分解为RQ分解。在scipy.linalg中，为二者提供了相同的参数，除了待分解矩阵…

阅读更多...

SPSS27破解安装后，出现应用程序无法正常启动(0xc000007b)

SPSS27破解安装后，出现应用程序无法正常启动(0xc000007b)

破解完SPSS 27软件后，点击图标出现下图错误可以尝试以下方法： 1. 在安装目录下找到VC开头的文件夹 2. 点击此软件进行修复若修复完成，重新启动SPSS软件即可。 3. 若提示错误，显示如下界面，进行下面的方法 4. 下…

阅读更多...

用户行为分析zhi应用分析模型

用户行为分析zhi应用分析模型

（1）基于AARRR漏斗模型分析用户行为本文通过常用的电商数据分析指标，采用AARRR漏斗模型拆解用户进入APP后的每一步行为。AARRR模型是根据用户使用产品全流程的不同阶段进行划分的，针对每一环节的用户流失情况分析出不同环节的优化…

阅读更多...

斐波拉契数列，有人买了一对小兔子，已知小兔子一个月后长成大兔子，大兔子每个月生一对小兔子，问:两年(24个月)之后，他一共有几对兔子。

斐波拉契数列，有人买了一对小兔子，已知小兔子一个月后长成大兔子，大兔子每个月生一对小兔子，问:两年(24个月)之后，他一共有几对兔子。

[01]斐波拉契数列，有人买了一对小兔子，已知小兔子一个月后长成大兔子，大兔子每个月生一对小兔子，问:两年(24个月)之后，他一共有几对兔子。第i月份大兔子小兔子总兔子1011210131124213532565387851381382192113341034…

阅读更多...

最新文章