近日,磐久液冷小课堂《Hi,液冷》直播上线。阿里云基础设施数据中心研究员曲海峰,阿里云基础设施业务总监、液冷产品负责人郭懿群,阿里云基础设施高级专家严瀚现身直播进行了分享,“无论从政策角度、市场需求还是技术成熟度,均标志着数据中心进入液冷时代。”
重点回顾
负载率自动适应 实时保持高效性
传统数据中心采用的制冷系统负载率和效率无法很好地匹配,而浸没式液冷采用的制冷模式架构区别于传统模式,主要功耗集中在泵与室外散热系统,搭载阿里自研液冷监控系统,能够全自动与负载率相匹配,始终保持系统高效运行。
系统设计至简化 浸没液隔绝空气 IT 故障率降 53% 无气流组织影响
传统数据中心的核心组成部件结构复杂,而浸没式液冷解决方案一体化至简设计架构,从原理上去除了室内部分的空调风机和服务器风机双侧流体驱动系统,彻底排除了空气流动的需求,IT 故障率大幅下降减少维护量,系统热交换次数下降,全自动调泵风机部件运行情况、自主故障预测与调优预测运行,持续保持恒温恒湿环境,有效屏蔽了外界绝大部分不利因素,大幅降低数据中心的故障率,这对于基础设施的可靠性提升起到了关键性作用。
超高热功率密度 提高土建利用率
传统的风冷型数据中心,为了实现较低 PUE,须有足够空间与层高进行合理的气流组织。而液冷数据中心对层高要求不高,部署灵活,至简化、高密度、省面积的特性更使得部署密度大大提高,已落地部署 100kW 高功耗 GPU 集群,从而大幅提升空间土建资源利用率。
标准化快速交付 可缩短交付周期
从张北数据中心到杭州仁和数据中心,多年的交付实践过程中,磐久液冷解决方案已经实现了从方案设计到生产、部署、施工、现场验收测试等液冷数据中心整体模块化部署交付的标准化流程。
适应未来 IT 成长 扩容可变弹性强
随着数据中心行业飞速发展,IT 算力持续演进,高密高功耗成为新常态。追求高计算性能导致处理器功耗持续增加,传统数据中心散热设计极限备受挑战。浸没式液冷数据中心可适应单机柜功率的增长,仅需在线升级换热器,同时增加一次侧冷却塔,未来扩容能力不受限制,可支撑未来数十年三代以上的数据中心 IT 系统的快速演进。
整体 TCO 优异 经济性满足需求
在展望数据中心未来发展趋势和双碳背景下,可以看到阿里在不断验证技术可靠性的同时,也在不断对整个系统的成本进行优化,使其更加具备新技术和解决经济性的问题。就技术可行性而言,浸没式液冷是目前数据中心行业降低 PUE、增质提效的前沿技术;就基础设施的投资回报率而言,浸没式液冷的回收周期在四年以内,是一个合理的水平;从高质量发展的角度而言,浸没式液冷历经阿里内部多个大体量业务的检验,PUE 处于行业领先水平。而且,浸没式液冷解决方案正在逐步实现自主安全可控、资源安全,未来相信随着产业链的不断壮大,一定能实现行业内多方共赢的局面。
直播疑问解答Q&A
阿里目前采用的冷却液体是什么,性能如何?
目前已交付的大部分浸没式液冷项目采用电子氟化液,具有良好的化学稳定性、绝缘性、热传导性,无闪点,黏度低,后期维护简单方便。
浸没式液冷目前故障率下降 50%,体现在哪些方面,如果其中一台服务器坏了影响业务正常运行吗?
浸没式液冷解决方案采用至简设计,全模块浸没在液体中,极大减少由震动、粉尘带来的损害,实际数据显示:在 CPU、内存、硬盘、电源等 IT 部件故障率均有不同幅度的下降。通过架构设计和合理冗余,即使单台服务器损坏,也不影响其他服务器的正常运行。
目前液冷机房运维困难吗?与风冷相比成本如何?
就运维而言,液冷方案架构简单,在设计、出厂验收达到性能和可靠性要求的前提下,现场故障率极低、运维方式简易,运维工作量大幅降低。现场运维成本对比风冷大幅下降。
浸没式液冷的设备有哪些?
浸没式液冷一体化的交付方案中包括液冷底座子系统(TANK&CDU)、液冷服务器子系统、液冷网络子系统、液冷监控子系统、液冷室外散热子系统等部分。还可根据客户需求配套集成液冷用配电子系统、不间断电源子系统等。
液冷方案中相变与非相变有何区别?
非相变(单相)浸没式液冷方案中,冷却液的沸点较高,冷却液吸收IT设备发出的热量后仍旧保持液态,不发生形态的变化(即冷却液不会从液态转变为气态),非相变(单相)浸没式液冷方案机柜(tank)为密闭设计,日常使用中冷却液损耗极小,非相变(单相)浸没液冷系统现场维护简单方便,采用不同规格的换热单元(CDU),单相浸没液冷系统的可支持的单机柜功率密度可达 100kW 以上,符合当前及未来数据中心各类业务场景的需求;相变浸没式液冷方案,冷却液的沸点较低,冷却液吸收IT设备发出的热量后从液态转变为气态(后续通过内置冷凝管再由气态转变为液态),在此过程中液冷机柜中会聚集大量气化的冷却液,为了减少冷却液的挥发并确保系统安全可靠运营,相变式液冷机柜在密闭性、压力控制等方面设计要求较单相浸没系统都要高很多,整个系统架构也较复杂,现场维护难度也较高。
如何回收漏的冷却液?如何检测挥发的氟化液?
只需做好出厂前的单相浸没液冷机柜的打压测试、检漏设计,工程验收环节做好相应的测试,由于系统无压缩机等高压震动部件,后期出现泄露概率极低。张北液冷数据中心实际交付约四年,在实际运营过程中未发生漏液事故,因此无需回收。采用的氟化液稳定性极高,现场需要的补液量很小(单相浸没液冷系统冷却液年损耗小于0.5%),并且绝大部分是由运维过程中带来的损耗。系统有电子液位计可自动检测浸没液体的量是否充足。
浸没式液冷方案中单位平米算力是多少,单位功耗算力是多少?
磐久高性能计算一体机的单位面积算力可达 8PFLOPS/m2(FP16AI算力),单位功耗算力可达 0.4PFLOS/kW
国内现在都有哪些已经落地的大型液冷数据中心?能否分别做一些简介?
目前阿里在张北和杭州分别落地了大规模液冷数据中心,详细介绍可在相关视频中观看。
目前液冷解决方案哪里可以获取技术支持?PPT 从哪里获取?
目前液冷解决方案已经可以商业化输出,技术支持及 PPT 均可扫描视频尾部二维码。
直播回顾视频可点击原文观看:
液冷数据中心正当红,解密“浸没式液冷”