1引言
随着人工智能、物联网、加密货币、AR/VR等计算密集型应用的快速发展,日益增长的计算需求使数据中心逐渐向“高性能、高密度、高能耗”发展。国家能源局数据显示,2020年我国数据中心耗电量突破2000亿千瓦时,占全国总用电量的2.7%。数据中心的能耗大致由通信及网络设备、供电配电系统、照明及辅助设备和冷却系统组成,其中冷却部分的能耗约占数据中心总能耗的40%左右。提高数据中心冷却系统效率,降低能耗对实现“双碳”目标至关重要。
常见的液体冷却方式包括冷板式、喷淋式和浸没式三种。其中,浸没式液冷传热效率最高且能避免局部热点,是目前最有可能解决高性能计算环境中散热系统所面临各种问题的技术手段。本文将围绕浸没式液冷技术,对该技术的技术优势、实现方案、商业化进展和应用现状以及未来发展面临的问题和挑战进行介绍。
2浸没式液冷技术的优势
作为助推下一代大数据中心全新发展的引擎,浸没式液冷技术的优势主要体现在以下几个方面:
2.1更高的能源利用率
浸没式液冷使用冷却液作为热传输媒介,液体具有更高的导热率和比热容,因此可以更快地传导以及更有效地吸收热量。同时,因为减少了风扇和空调的使用,采用浸没式液冷技术的数据中心具有更低的PUE。根据UptimeInstitute的调查数据,2021年全球大型数据中心平均PUE为1.57,其中采用传统风冷技术的数据中心PUE一般在1.8左右,而采用液冷技术的数据中心,无论项目的规模大小、所处的维度及气候区,几乎都可以将PUE控制在1.1以内。
2.2更高的功率密度
浸没式液冷可以大幅提高数据中心单位空间的服务器密度,从而更好地支持高密度计算。传统数据中心采用空气冷却系统,可冷却的机架功率密度通常为10kW-15kW,而浸没式液冷可以将单机架功率提升到100kW甚至200kW以上,因此完全可以满足高密度计算场景对散热的需求。
2.3更高的设备可靠性
美国空军航空电子整体研究项目(USAirForceAvionicsIntegrityProgram)认为,温度、振动、湿度和粉尘是造成电子设备故障的主要因素。
浸没式液冷可使IT设备始终工作在适宜的温度,浸没环境有效避免了湿度(空气中的水会造成元器件的锈蚀,而冷却液可以保护设备)、灰尘等对设备的不良影响。此外,因服务器和机房不再需要风扇,从而有效解决了噪音和振动问题。
2.4更高的空间利用率
浸没式液冷优异的散热性能使服务器可以紧密排列,无需隔开距离,同时无需配置风扇,机房内也不需要空调和冷冻机组,无需安装冷热通道封闭设施,更不需要架空地板,因此浸没式液冷比传统冷却方案具有更高的空间利用率。
2.5更节省用水
一项关于数据中心用水量的研究指出,全美数据中心每天的用水量高达17亿升,而这其中55%为可饮用水。巨大的用水量不仅增加了运营成本,在对水资源使用量有限制的地区还将面临监管压力。传统的空气冷却技术通常需要使用大量的水进行蒸发降温。浸没式液冷技术的冷却液可以在较高温度下工作(可达45℃),即使在较热的气候条件下,仍可有效利用自然冷却,减少了对主动排热设备的需求,因此更节水。
3浸没式液冷的实现方案
浸没式液冷将IT设备直接浸泡在冷却液中,依靠冷却液吸收设备产生的热量。按照冷却液在循环散热过程中是否发生相变,可以分为单相浸没式液冷和双相浸没式液冷。
3.1单相浸没式液冷
在单相浸没式液冷系统中,IT设备所有的发热组件都完全浸没在循环的不导电的冷却液中,设备发出的热量直接传递给冷却液。单相浸没式液冷的冷却液通常具有较高的沸点,冷却液吸热后并不会发生相变,始终维持在液态。
单相浸没式液冷通过自然对流或泵驱动冷却液的循环。自然对流驱动的循环散热过程,利用了液体受热后体积膨胀密度减小的特点,较热的冷却液会自然上浮,之后被连接到外部冷却回路的热交换器冷却。冷却后的液体在重力的作用下自然下沉,完成循环散热。
与自然对流相比,用泵驱动循环冷却液的方式可以更有效的提高冷却能力。由泵、热交换器、传感器、过滤器组成的装置被称为冷却液分配单元(CDU,),利用CDU可以更加精确地控制冷却液的温度和流速。较冷的冷却液在泵的驱动下流经发热元件,将热量带走。被加热的冷却液在泵的驱动下进入热交换器被降温,之后在泵的作用下继续循环。热交换器一般用水作为冷却介质,热量最终通过循环冷却水系统排出。
单相浸没式液冷的工作原理如图所示。
单相浸没式液冷通常选择沸点较高的冷却液,以确保冷却液在循环散热过程中始终保持液态。氟碳化合物和碳氢化合物(例如矿物油、合成油、天然油)均可用于单相浸没式液冷。目前3M和Shell等企业都在生产用于单相浸没式液冷技术的冷却液,不同的是3M的冷却液为氟化液,而Shell的冷却液为天然气制成的合成油,属于碳氢化合物。
部分适用于单相浸没式液冷的冷却液主要参数如表1所示。
单相浸没式液冷的优势体现在两个方面,一是冷却液价格相对更低,部署成本更低;二是冷却液无相变,无需担心冷却液蒸发溢出或人员吸入的健康风险,更有利于维护。
3.2双相浸没式液冷
在双相浸没式液冷中,冷却液在循环散热过程中不断经历从液态到气态再从气态回到液态的相变过程。IT设备完全浸没在装有低沸点冷却液的密闭罐体中,设备发出的热量被冷却液吸收,冷却液吸热后温度升高,达到沸点后开始沸腾,由液态相变为气态,同时产生大量的蒸汽。蒸汽从液体中升起逃逸至液面上方,在液冷罐体内形成气相区。气相区的冷却液蒸汽与水冷冷凝器接触,热量被冷凝器吸收,冷却液凝结成液体以液滴的形式落回容器中再次循环,而冷凝器中被加热的冷却水则通过循环冷却水系统完成排热。
双相浸没式液冷的工作原理如图3所示:
为了能有效利用冷却液的相变过程,并控制IT设备的温度,用于双相浸没式液冷的冷却液不仅要有良好的热物理性能、化学及热稳定性、无腐蚀性,还需要合适的沸点、比较窄的沸程范围以及较高的汽化潜热。硅酸酯类、芳香族物质、有机硅、脂肪族化合物及氟碳化合物等都被尝试应用于双相浸没式液冷。其中,氟碳类化合物综合性能最好,因此较为常用。目前,3M公司是全球生产浸没式电子氟化液的领先企业,其生产的Fluorinert™电子氟化液与Novec™电子工程液均有不同型号可以用于双相浸没式液冷。两者均有优良的热稳定性和化学稳定性、无味、不可燃、非油基、低毒性、无腐蚀性,可为数据中心提供可信赖且可持续的解决方案。
部分适用于双相浸没式液冷的冷却液主要参数如表2所示。
双相浸没式液冷充分利用了冷却液的蒸发潜热,可以满足高功率发热元件对散热的极端要求,使IT设备可以保持满功率运行。但相变的存在也使得双相浸没式液冷系统必须保持密闭,以防止蒸汽外溢流失,同时必须考虑相变过程导致的气压变化,以及系统维护时维护人员吸入气体的健康风险。
4商业化和应用案例
近年来,浸没式液冷相关技术日趋成熟,国内外已有多家企业开始面向客户提供针对不同散热需求下的浸没式液冷技术解决方案,一些科技公司也已开始将基于浸没式液冷的散热系统实际部署在他们的数据中心。
阿里云作为国内市场占有率第一的云服务提供商,是最早探索和实践大规模液冷方案的科技公司之一。2020年1月,阿里云宣布向全社会开放“浸没液冷数据中心技术规范”,2020年9月,仁和数据中心开服,PUE设计值1.09,相比传统风冷数据中心每年可节省3000万度电;2021年12月,阿里云发布磐久系列液冷一体机ImmersionDC1000,整体能耗可下降34.6%。
与阿里云采用单相浸没式液冷技术路线不同,微软对双相浸没式液冷技术进行了测试。2021年4月,微软发布消息称其使用自研的冷却液,在位于华盛顿州昆西市的Azure数据中心采用了双相浸没式冷却技术,据微软发布的消息,双相浸没式液冷可以将服务器的功耗降低5%到15%。
在浸没式液冷解决方案的供给端,国内外均有企业在积极布局。例如,总部位于美国的GreenRevolutionCooling主要提供数据中心单相浸没式液冷解决方案,面向高性能计算、边缘数据中心、区块链和加密货币等场景提供具有完整冷却和电力基础设施的一站式模块化数据中心;总部位于荷兰的Asperitas采用自然对流驱动的单相浸没式液冷技术,其HPCzone系列产品可为各种高性能计算场景提供一站式解决方案。在国内,浪潮信息于2018年推出了小型可移动的浸没式液冷超算TS4220LC;中科曙光旗下的曙光数创推出了相变浸没式液冷配套解决方案C8000,声称能够将PUE值降到1.05以下。
5面临的问题与挑战
根据MordorIntelligence的报告,2020年全球数据中心浸没式液冷市场的整体规模为2.97亿美元,预计到2026年将达到7.03亿美元,期间复合年增长率为15.27%。尽管预期增速较快,但现阶段在推动数据中心快速拥抱浸没式液冷技术的进程中,仍面临不少阻碍和挑战。包括:
5.1应用场景限制
UptimeInstitute的调查显示,2020年全球数据中心的平均功率密度仅为8.4kW/r,其中只有3%的数据中心的功率密度超过50kW/r。因此,尽管浸没式液冷技术的散热性能极佳,但除了加密数字货币挖矿等特定场景外,常规数据中心将传统散热方案升级为浸没式液冷的需求并不强烈。此外,浸没式液冷的能效水平在低负载场景下可能会被削弱,严逊等人搭建了浸没式液冷实验台,利用假负载测试得到不同室外温度、不同负载功率下的pPUE(局部PUE)在1.05-1.28之间,同时发现pPUE随着负载上升而降低。
5.2设备供应商支持
因为浸没式液冷技术使用液体散热,为了能够与冷却液相容,硬件设备通常需要适当调整以适应浸没式冷却。虽然当前部分OEM已支持适用于浸没式液冷的设备,但仍有不少设备制造商尚未针对浸没式液冷进行设计或测试。这些OEM可能会取消或停止按照以往服务协议对这些应用于浸没式的设备提供质保和长期维护服务。
5.3部署和改造成本
在计算浸没式液冷系统的部署成本时,需要综合考虑所有实际支出。不仅包含液冷设备罐体和冷却液的价格以及后续的维护成本,还包括泵、换热器、过滤器、传感器等一系列用来满足液冷系统设计实践的其它设施的改造和维护成本。尤其是对于那些已按照风冷系统建设完成的数据中心来说,改造成本往往是巨大的。
上述问题能否以及以何种方式解决,将成为决定未来浸没式液冷技术能否快速和规模化部署的关键。
资料免费送(点击链接下载)
史上最全,数据中心机房标准及规范汇总(下载)数据中心运维管理 | 资料汇总(2017.7.2版本)
加入运维管理VIP群(点击链接查看)
《数据中心运维管理》VIP技术交流群会员招募说明
扫描以下二维码加入学习群