什么样的故障让阿里云换了总裁?

news/2024/11/20 9:30:50/

📣📣📣📣📣📣📣

🎍大家好,我是慕枫
🎍前阿里巴巴高级工程师,InfoQ签约作者、阿里云专家博主,一直致力于用大白话讲解技术知识
🎍在这里和大家分享一线互联网大厂面试经验、技术人成长路线以及Java技术、分布式、高并发、架构设计方面的经验总结
🎍感恩遇见,希望我们都能成为更好的自己
📣📣📣📣📣📣📣
 

2022年12月18日大概是阿里云最黑暗的日子,阿里云香港Region可用区C因为机房水冷装置出现故障导致大规模服务中断,对很多客户业务产生重大影响,包括澳门多家网站及App自当日午时起无法访问使用。云服务器宕机后一般几个小时左右便能恢复,可是阿里云这次宕机于12月18日早上8点56分首次检测到故障警告,直到次日凌晨0点30分所有服务才恢复正常,整个故障持续时间超过15个半小时。号称世界第三的云计算服务商在机房出现异常的时候要耗费如此多的时间才能恢复简直不敢想象,实在和其宣扬的各种黑科技高可用大相径庭。

这次的宕机事件对阿里云的技术品牌力损伤非常大,可能后期你再宣扬自己技术有多牛,客户可能都不会相信了,一旦失去了客户的信任,那离失去市场也就不远了。毕竟现在云计算市场竞争还是比较激烈的,像华为云、腾讯云以及百度云等都在摩拳擦掌抢占市场份额。

故障复盘

 

暴露的问题

制冷系统监控不足

在机房出现故障的时候,首先检测到的是机房温度异常升高而后才排查到是机房制冷设备问题,很明显机房监控系统没有对制冷机组进行监控。原因机房主备水冷机组共用了同一个水路循环系统,因此存在单点故障问题,一旦水路循环系统出问题,主备水冷机组都会受影响。后期对制冷设备进行手动操作仍然不能恢复其正常运行,很明显没有对水冷设备进行过设备故障演练,导致出现问题后恢复操作时间过长。

为什么机房直接进行喷淋?

大家都知道机房中的服务器都是电子设备,而电子设备最怕水了,如果服务器进水了那就很有可能导致服务器短路损坏,进而导致服务器数据丢失,更加延长了故障恢复的时间。所以为什么不是喷洒七氟丙烷气体灭火,最起码泡沫、粉末也行啊,但是实际上直接触发了喷淋操作,这也是非常诡异的地方。

高可用形同虚设

企业使用阿里云的一个重要原因就是看中了其高可用能力,希望哪天在发生故障的时候用户可以无感地快速进行切换,尽可能的减少故障导致的业务中断时间。而在此次的阿里云宕机故障中,虽然采用了B、C可用区双机房进行了容灾,在C可用区故障之后通过B可用区对外提供服务,但是可惜的是B可用区服务实例资源不够,同时ECS启动时依赖的中间件服务没有进行双机房容灾,只部署在了可用区C机房当中,而此时的可用区C机房已经出现故障,导致B区无法实现扩容。这也暴露了阿里云对重要的基础中间件以及oss基础服务并没有真正做到全部双机房容灾,出现了单点故障问题。

阿里云智能换帅

2022年12月29日,阿里云宕机事件不到两周的时间,阿里巴巴董事会主席兼CEO张勇向阿里全员信公布人事变动信息,张勇将亲自兼任阿里云智能总裁,张建锋不再担任阿里云智能总裁。在这封信中提到:只有在一点一滴的行动上保障好客户利益,创造好客户价值,才能承担好引领发展、创造就业、参与国际竞争的大使命。

在这封全员信发出后,张勇作为阿里云智能总裁单独面向阿里云全体小二发了内部信,信中措辞更为严厉,在800多字的内容中,提到了超过20次“客户”,可见张勇这次是真的急了。以下截取了信中部分内容。

反思

无论是像阿里这样体量的公司还是正在创业的公司,都要始终把客户的利益放在第一位,把客户的信任放在第一位才能赢得客户,赢得市场。否则一旦失去客户的信任,也就慢慢失去了市场,那么在激烈的市场竞争中就会被淘汰。希望在新的一年里阿里云真的可以吸取这次宕机事件的教训,真正为客户创造价值。

 


http://www.ppmy.cn/news/12543.html

相关文章

【JavaScript】函数

JS Day 4 函数 WHY 函数(function):执行特定任务的代码块 有利于精简代码,方便复用,提高开发效率 函数使用 function关键字声明 function 函数名(){函数体 }function hello(){document.write(hello javascritp)…

MySQL中给字符串字段加索引

文章目录前言一、前缀索引和普通索引二、前缀索引对覆盖索引的影响三、优化前缀索引前言 学完了MySQL索引部分,我们清楚的认识到给子段添加索引可以快速的进行查询,节约时间。但是索引有很多。那么对于字段怎么加索引,加什么索引。加到索引不…

【MySQL进阶教程】MySQL管理

前言 本文为 【MySQL进阶教程】MySQL管理 相关知识,下边将对系统数据库,常用工具(包括:mysql、mysqladmin、mysqlbinlog、mysqlshow、mysqldump、mysqlimport/source)等进行详尽介绍~ 📌博主主页&#xff…

有了独自开,我们离自己开发一套系统还会远吗

前言: 大家好,我是小威,今天给大家分享一个开发平台。能够独自开发一套系统,这想必对开发者是一个福音。下面就为大家介绍一下这个平台,来帮助我们开发自己的系统。 文章目录简单介绍优点优秀案例平台福利总结简单介绍…

【nvidia CUDA 高级编程】NVSHMEM 直方图——分布式方法

博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。 博客…

设计模式简要汇总

一、面向对象设计原则 开闭原则:一个软件实体(类、模块、函数)应该对扩展开放,对修改关闭。依赖倒置原则:高层模块不应该依赖底层模块,它们都应该依赖于抽象。抽象不应该依赖于细节,细节应该依…

Django搭建个人博客Blog-Day05

创建文章模块创建文章app在虚拟环境中,apps路径下使用如下代码:# 进入虚拟环境 workon wsl # 进入要创建app的路径下 cd blog/blog/apps # 创建app python ../../manage.py startapp articles将articles注册进配置文件dev.py中的INSTALLED_APPSINSTALLED…

make_blobs函数

示例1: # make_blobs示例 from sklearn.datasets.samples_generator import make_blobsX, y make_blobs(n_samples10, centers3, n_features2,random_state0) #看看数据集长什么样 plt.scatter(X[:, 0], X[:, 1], cy, cmap"rainbow");示例2:…