文章目录
- 面向失败的设计
- 冗余设计避免单点故障
- 宏观多活架构
- 服务能力与依赖调用自我保护
- 为失败准备预案
- 精细化监控体系
- 自动化运维管控
- 故障与攻防演练锤炼容灾应急能力
- 最佳实践
面向失败的设计
什么样的失败?硬件问题软件Bug配置变更错误系统恶化外部攻击依赖库问题依赖服务问题
面向失败的设计冗余设计避免单点故障面向失败的宏观多活架构服务能力与依赖调用自我保护为一切不可预料的情况备好预案自动化运维管控精细化的监控体系故障与攻防演练锤炼容灾应急能力
冗余设计避免单点故障
硬件冗余
信息冗余
时间冗余
软件冗余
如何做有效隔离?
宏观多活架构
以数据为中心进行灾备
以业务为中心进行同城双活(应用层)
以用户为中心进行智能流量分配&多中心部署(异地,存储层做到了多活)