在算力芯片需求持续升温的背景下,曙光数创正以创新技术引领液冷散热的新风潮。在2025中国智算中心全栈技术大会上,曙光数创隆重推出了“新服务、新技术、新架构”三大新品,旨在通过一体化、全生命周期的服务模式,破解液冷行业当前面临的诸多难题。
曙光数创副总裁兼CTO张鹏在接受媒体采访时表示,液冷即服务的理念在行业中早已有需求,但由于缺乏统一标准,从设计到服务器,各家对液冷数据云架构的理解各异,施工质量也参差不齐。对客户而言,理想的解决方案应涵盖优质服务、先进技术和可靠架构,无需在这三者间做出取舍,而是寻求一个覆盖全生命周期的服务。
根据国际数据公司(IDC)今年4月发布的《中国半年度液冷服务器市场(2024下半年)跟踪报告》,2024年中国液冷服务器市场规模已达23.7亿美元,同比增长67.0%,其中冷板式解决方案的市场占有率进一步提升。IDC预测,从2024年至2029年,中国液冷服务器市场的年复合增长率将达到46.8%,到2029年市场规模有望达到162亿美元。
液冷产业的蓬勃发展离不开上下游企业的协同合作。从芯片、服务器到液冷系统,各个环节需共同把控安全、推动技术融合,并亟待建立统一标准。随着AI大模型的快速发展,智算中心已逐步取代传统数据中心,成为新型基础设施的核心。然而,算力芯片的功耗与发热量急剧增加,给数据中心的散热系统带来了巨大挑战。
英伟达CEO黄仁勋曾透露,其2026年将推出的Rubin芯片单颗功耗将达到1.6千瓦,而AMD新发布的Instinct MI355系列芯片功耗也已接近1.4千瓦。行业专家预测,未来几年内,单芯片功耗可能会突破二千瓦大关。算力密度的快速增长使得传统风冷方案陷入瓶颈,液冷凭借其高效的换热效率成为当前最现实且迫切的选择。
芯片厂商已经率先行动。英伟达早在2022年就推出了液冷版A100芯片,并在去年的B100、H200芯片上正式升级为液冷散热。今年英伟达发布的新一代Blackwell Ultra和AMD新发布的MI355X,同样采用了液冷散热设计,性能表现更为强劲。百度智能云IDC建设运维部副总经理郝玉涛认为,当机柜功率超过40千瓦时,风冷将彻底失去竞争力,液冷将凭借其能效和密度优势,成为数据中心高密散热的主流技术。
然而,液冷技术的应用并非易事。液冷数据中心在架构和原理上与传统风冷数据中心存在本质差异。传统风冷有明确的标准,而液冷技术却缺乏统一的行业标准,不同设备厂商在液冷接口、压力等级、冷媒类型乃至监控协议上各不相同,这给客户在设备选择和系统集成时带来了困扰。液冷服务器种类繁多,各家厂商在关键参数和架构设计上的标准不一,导致设备兼容性差,跨机房迁移业务时管道接口匹配成为一大难题。
张鹏介绍,液冷系统中冷却液直接进入服务器内部,对液体的纯净度和水质要求非常严格。如果施工过程中发生二次污染,水质管理不到位,或运维出现失误,都可能导致芯片损坏或系统宕机等严重后果。液冷系统还需面对系统压力的挑战,冷却液循环流动需要使用泵产生一定压力来推动,受热膨胀后系统压力增加,存在潜在的安全风险。
目前,数据中心液冷技术全产业链条的标准正在制定中。曙光数创牵头编制的国家标准《数据中心冷板式液冷系统技术规范》已正式启动,旨在引导和规范冷板式液冷数据中心的高质量、标准化发展。截至目前,曙光数创已牵头或参与编制了多项国家标准、地方标准、行业标准和团体标准。
在大会上,曙光数创首次推出了相变间接液冷数据中心解决方案C7000-F,为智算中心的发展提供了新的思路和方向。该方案采用一体化架构,集成了高效冷板、模块化分布式换热单元、智能压力调控与冷媒循环系统,并基于统一协议接口标准,实现设备层到系统层的端到端联动。
曙光数创的这套设备可为八台服务器同时服务,并提供从设计规划到运维保障的全过程、全方位、全链条服务。曙光数创正将液冷从单纯的散热工具,升级为系统级的算力支撑平台。张鹏表示,在算力时代,计算基于全生命周期的单千瓦冷却成本变得非常重要。曙光数创的测试显示,在高密度部署时,只有浸没式相变冷却才能有效应对AI算力所需的高热量。
曙光数创是国内首个推出相变浸没式液冷数据中心的厂商,PUE值最低可达1.04,接近于1。此次,曙光数创首次将相变间接液冷技术产品化落地,推出C7000-F解决方案。该方案使用特制的浸没式冷媒在冷板循环管道内工作,通过相变过程吸收大量热量,实现高效散热。曙光数创自主研发的冷媒在热物性参数、安全性、环保和毒理方面均表现良好,即便出现泄漏也不会对GPU芯片产生破坏性影响。
与普通冷板解决方案相比,相变间接液冷数据中心整体解决方案可有效降低冷板换热热阻,整体温度收益下降,但成本涨幅却能控制在合理范围内。如果考虑长期运营成本,整体单千瓦冷却成本反而是下降的,为数据中心的高效运行提供了有力保障。