在整个基础设施中,服务器是面向最终用户提供计算和存储资源,且在数据中心的整体 TCO 中占比最大的至关重要的角色。服务器从诞生到现在,每一次技术的突破和换代,都是朝着更开放、更易用、更优 TCO、更易交付的方向演进。
本文选自 《企业数字化基石:阿里巴巴云计算基础设施实践》 一书。与您一同探寻阿里服务器的持续演进与未来展望。
阿里巴巴的服务器演进
▊ IOE 时代
最初的几年,阿里巴巴的基础设施是基于IOE 的解决方案构建的。IOE 是传统IT 三大件,指以IBM、Oracle、EMC为代表的小型机、集中式数据库和高端存储的技术架构。
-
I 指 IBM p 系列小型机,操作系统是 AIX(IBM 专有的 Unix 系统)。
-
O 指 Oracle 数据库(RDBMS)。
-
E 指 EMC 中高端 SAN 存储。
IOE 代表一种集中专用的架构,强调单一系统的规模,通过强化单一系统提升数据处理能力。
IOE
阿里巴巴过去一直采用的是Oracle 数据库,并利用小型机和高端存储设备提供高性能的数据处理和存储服务。随着业务的不断发展,数据量和业务量呈爆发性增长,传统的集中式 Oracle 数据库架构在扩展性方面遭遇瓶颈。IOE 实际上代表了一种高成本、高维护费、很不“互联网”(不擅长处理大规模高并发的互联网行为)的商用数据库系统,特别是阿里巴巴发展得越来越大,所需要付出的升级硬件和维护的代价也会越来越惊人,于是阿里巴巴采用数据切分(Sharding)的策略,将部分海量数据应用从集中式Oracle 切换到分布式MySQL 集群,从纵向扩展到水平扩展,解决了数据库扩展性的问题,并用PC 服务器替换了小型机。
▊ 电商时代
随着IOE的淡出,阿里巴巴正式进入全x86 服务器 + 分布式系统的时代。这一代的服务器出现了各种Form Factor :AliRack 整机柜服务器(如下图)、2U4 高密度节点服务器、1U1 节点计算型服务器、2U1节点存储型服务器,等等。在这一代服务器中也出现了多种技术尝试,比如Turbo 技术、非热插拔硬盘、高密GPU 服务器,等等。
AliRack 的开发和部署,标志着阿里巴巴定义互联网服务器的开始
计算 / 存储分离和部件化
在以企业级用户为主的时代,行业更多的是以单机“Scale up”能力这一维度来优化单机能力,通过提升置换比的方式来降低业务TCO。随着Google、Facebook、阿里巴巴等公司在分布式计算/ 存储领域的研发,当前服务器已经从单纯的“Scale up”为重心走向了“Scale out”。从整体架构层面,更多体现的是结合业务的架构变化及网络的升级大幅提升集群的性能,其中在产品层面体现出:计算与存储演进解耦,计算求快,存储求稳;在服务器的设计层面也涌现出针对计算优化的形态,如 Facebook 的 Yosemite 系统,以及针对存储优化的形态,如阿里巴巴“貔貅项目”研 发的存储服务器。
阿里巴巴“貔貅项目”研发的存储服务器
之前,阿里巴巴服务器在质量、成本、运维等方面都碰到过各种各样的问题,也有过各种各样的技术尝试,因此在Intel Grantley 一代服务器平台上,阿里巴巴有针对性地定制服务器主板功能、系统设计,结合运维依赖、历史问题等形成了阿里巴巴的定制BIOS、BMC 规范。在部件层面,将操作系统盘与数据盘分离,引入M.2 的 Form Factor 作为服务器内部操作系统盘,不占用系统盘位;在技术层面,贯彻从零到整、从整到零的思路,服务器的技术掌控下沉到部件层面,以阿里巴巴第一款定制Broadwell 架构Intel® Xeon® E5-2682 V4,以及阿里巴巴第一代自研 PCIe SSD AliFlash 为主要代表:
-
Intel® Xeon® 2682 V4 的成功定制标志着阿里巴巴的服务器CPU 深度定制路线 的开始。
-
AliFlash v1.0 在此阶段规模引入且取得巨大性能优势和标杆效应。
表 2682 V4 CPU 与其他型号的对比
阿里巴巴定制 CPU 及AliFlash v1.0
在异构计算场景,深度学习的广泛应用也推动了 GPU 等异构服务器的迅速发展, 从单纯的2 卡 Tesla M40 服务器用作HPC、深度学习,到2 卡 AMD Firepro S7150x2服务器用作图形渲染,再到8 卡 GPU 服务器加速深度学习训练,以及FPGA 服务器的部署尝试。这标志着阿里巴巴真正开始进入技术掌控力的元年,并且在Broadwell系列服务器的 TCO 收益也反向证明了技术投入的巨大回报。
未来发展展望
进一步解耦 CPU-Storage,CPU-GPU,CPU-MEM 和架构一体化
展望未来的发展,下一代服务器解决方案发展会结合下一代的网络架构及下一代的 IDC 架构进行深度适配和优化,同时从服务器L6、部件级别继续垂直发展,往下到芯片级,往上形成平台化,打通业务层。
下一代服务器架构
▊服务器架构层面 进一步计算、存储分离,大计算+异构计算+大存储+高性能存储;服务器整机从紧耦合到松耦合;整机柜交付,各部分模块化设计满足不同场景需求。
▊ 部件和芯片层面 新的存储介质形成新的存储Tier,为数据库等I/O 密集场景提供性能加速。内存内计算(Inmemory Compute)等新兴的使用方式也提供了更多的方案选择。
▊ 工程技术层面 随着服务器性能的提高,功耗的增长也不可避免,高功耗不仅意味着耗费更多的电能,同时也会在电源布线、机房通风、空调散热等各方面带来巨大的压力。随着计算性能和密度的不断提升,也许未来再大的风也无法吹凉未来那颗滚烫的芯了,那么如何发挥芯片的计算能力,并且把能效发挥到极致,液冷在可见的未来是一个重要的方向。阿里巴巴位于北京东奥云数据中心的浸没式液冷集群是全球互联网行业规模领先且投入实际运营的液冷集群,完全采用由阿里巴巴设计的服务器和浸没式液冷解决方案,已经为2018 年的“双11”提供了绿色的计算能力,其PUE 值稳步保持在1.1 以下。
阿里巴巴设计的服务器和浸没式液冷
▊ AI 场景复杂化基于FPGA、GPU 和 NPU 等不同方案为不同应用场景提供加速,同时提供统一的机器学习加速平台。
▊ 内存的池化随着Intel CXL 等新的高速互联协议的提出,在PCIe 5.0 的物理层基础之上,提供了更高级的I/O、内存访问,以及一致性的协议,为异构计算及内存系统加速,更好地支撑AI、机器学习、HPC 等应用场景。在此情况下,内存也具备了一定程度的池化能
《企业数字化基石:阿里巴巴云计算基础设施实践》
高山渊 蔡德忠 赵晓雪 刘礼寅 刘水旺 陈义全 徐波 编著
这是一本对阿里巴巴云计算基础设施技术实践的全面总结,并被赞誉对当前国内外云计算基础设施技术发展具有里程碑式的指导意义!它就是由阿里巴巴官方团队编著、承载着云计算技术风云变幻的著作 ——
本书将详细地阐述阿里巴巴在基础设施上的实践细节及先进技术,包括数据中心、网络、服务器、计算硬件、存储硬件,以及智能化运营与自动化运维等内容。
本书得到了阿里巴巴集团CTO兼阿里云智能事业群总裁张建锋(行癫)、阿里巴巴集团副总裁基础设施事业部负责人周明、中国信息通信研究院云计算与大数据研究所所长、开放数据中心委员会名誉主席何宝宏三位的亲笔作序推荐。
※ 强大的作者团队
本书由**AIS (Alibaba Infrastructure Service )**组织编写,主要作者为高山渊,蔡德忠,赵晓雪,刘礼寅,刘水旺,陈义全,徐波。历时三年,前后百余位技术专家参与写作。( AIS是负责阿里巴巴集团所有基础设施的研发、运营、维护等工作的部门)
※ 全面扎实的内容
本书不仅阐述数据中心、网络、服务器、计算硬件、存储硬件、智能化运营与自动化运维,而且梳理了基础设施演进过程中的思路、得失、最佳实践、未来路径规划。
※ 全彩印刷
阅读体验友好,图表均经过精心配色设计和描绘。每一处知识点的写作都经过了阿里巴巴云计算基础设施技术专家们的推敲与斟酌。
※ 核心内容
- TCO分析和建模
- 数据中心能效
- 数据中心的核心技术,包括供电、制冷等
- 数据中心网络架构和关键技术
- 服务器技术:服务器的硬件组成、演进、挑战等。
- 计算硬件技术:通用计算、异构计算、总线互联等。
- 存储硬件技术:内存、HDD、SSD
- 及阿里巴巴自研存储产品AliFlash等。
- 基础设施智能化运营与自动化运维
- IDC、网络、服务器的一体化
读者评论
《阿里巴巴云计算基础设施实践》这本书的书名并不吸引人,但是作者是实打实的AIS架构大牛人,人靠谱,写的东西也是阿里巴巴基础设施服务部门多少亿美金学费之后的经验分享,内容也靠谱。
第五章与第六章是我看的重点。
文笔非常工程师派头,比技术手册强一点,但是全是干货,每一段都能有极深的延展。挑自己的方向看下去,感觉遍地知识点……后背隐隐发凉,有种功课没做好被抽查到的后怕。
五星推荐。
不多说了,我接着做功课去了。
—— 来自首批读者留言