两相液冷:客户在乎的不是“能不能降温”,而是“能不能稳住算力输出”

摘要:AI算力驱动单机柜功率突破120kW,行业痛点已从设备能否运行转向能否长期满载稳定运行。单相液冷温度波动达±5°C以上,导致GPU频繁降频、算力损失严重。两相液冷利用相变潜热控温,实现芯片级±1°C精准调节,换热效率提升20倍以上。航天级技术下放,三层架构贯通芯片、机柜与站级,物联网平台实现动态服务。实测显示热降频减少90%pPUE低至1.05,运维效率提升60%。液冷竞争的下半场,比的是控温能力。

图片

一、行业正在经历一场静默的升级:算力密度飙升,热管理已从配套走向核心

1AI训练集群功率突破120kW,传统冷却方式正逼近物理极限

近年来,GPU集群单机柜功率从过去的5–10kW快速跃升至30kW以上,部分AI推理与训练节点甚至达到60kW乃至120kW。据DCDNetwork World 2024年报告,全球已有超过17%的新建智算中心规划单柜功率超过50kW。这一趋势下,风冷系统早已无力应对,单相液冷虽有所延展,但在高热流密度、负载波动剧烈的场景中,也开始显现温度波动大、局部热点难控、泵耗高等瓶颈。

2客户关注点已从设备能否运行转向能否长期满载稳定运行

过去数据中心建设更关注能不能开机,如今客户真正焦虑的是:为什么我的算力卡频繁降频?”“模型训练到一半突然中断,是不是温度波动太大?这些问题的背后,是热管理系统无法提供持续稳定的温区保障。真正的算力损失,往往不是来自硬件故障,而是来自不可控的热行为。

3液冷竞争的下半场,比拼的不再是散热效率,而是控温能力

当前市场上不少液冷方案仍停留在我把热量带走了的阶段,但对AI芯片而言,最关键的并非低温,而是恒温。研究表明,GPU55°C–75°C区间运行性能最佳,频繁波动会导致电迁移加速、寿命缩短、计算误差增加。未来的热管理,必须从降温思维升级为控温思维”——这正是技术代际差异的关键所

图片

二、行业面临的五大真实困境,暴露出现有热管理系统的深层短板

1高密度机柜装得满,跑不稳:热设计余量不足,扩容受限

许多数据中心在部署高功率服务器后发现,尽管电力和空间充足,但由于冷却系统无法匹配,不得不降低负载运行,造成资源浪费。机柜利用率不足60%成为常态,本质是热管理能力拖了算力兑现的后腿。

2单相液冷渐近边界:流量大、能耗高、控温精度差

单相液冷依赖高流速带走热量,导致水泵功耗占比升高,系统PUE改善有限;同时,其换热过程受流量影响大,难以应对瞬时负载变化,温度波动常达±5°C以上,无法满足高端芯片对温区稳定性的要求。

3存量机房改造难:停机风险高,兼容性差,投入产出比模糊

大量已建数据中心面临升级压力,但传统液冷改造需停机数天,涉及管路重布、配电调整,实施难度大、成本高。客户迫切需要一种不影响业务、可模块化部署、见效快的热管理升级路径。

4运维效率低下:故障难预警、问题难定位、优化靠经验

许多冷却系统缺乏数据采集与智能分析能力,运维人员只能被动响应告警。一旦出现局部过热,排查往往耗时数小时,严重影响服务质量。设备在线不等于可控,更不等于可优化

5节能停留在省电费层面,未形成系统化节能体系

当前节能评估多聚焦于空调或水泵能耗,忽视了因热降频导致的算力损失、服务器寿命折损等隐性成本。真正的节能,不应只是降低冷却能耗,更要提升算力兑现效率与资产使用周期。

图片

      三、系统级热管理方案浮现:以精准控温为核心,重构高密度算力基础设施

1两相液冷:用相变潜热实现高效带热与天然恒温

区别于单相液冷仅依靠显热换热,两相液冷利用液体沸腾吸热的相变潜热机制,换热效率高出20倍以上。更关键的是,在相变过程中,冷板表面温度几乎恒定,可实现芯片级±1°C以内的精准控温,从根本上消除热波动带来的性能衰减。

2航天级技术下放:极端工况验证,保障长期高可靠运行

该技术源自航天器热控系统,曾在真空、微重力、长周期运行条件下成功应用于红外探测器、激光器等高精密设备。其高可靠性、低维护、强环境适应性的特点,为数据中心提供了经过极端验证的技术底座。

3芯片级+机柜级+站级三层协同,构建系统性热管理能力

芯片级:泵驱两相冷板直接贴合CPU/GPU,实现定点高效散热;

机柜级:两相背板回收服务器排出热风,进一步降低环境温升;

站级:集成冷站配合AI能效平台,实现全局最优调度。

三层架构贯通,确保从器件到系统级的完整热管理覆盖。

4物联网平台赋能:让热管理从静态安装变为动态服务

通过物联网SaaS平台,实时采集温度、压力、流量、能耗等数据,结合AI算法进行趋势预测与策略优化。运维团队可远程监控、故障预警、自动调参,真正实现可管、可控、可运营。平台不仅是数据展示工具,更是持续节能与质量保障的服务中枢。

5适配新建与改造双场景:兼顾未来上限与当下兑现

对新建项目:支持120kW+高密度部署,预留5年以上扩容空间;

对存量机房:采用模块化后液冷面板设计,支持在线部署,72小时内完成单机柜升级,不停机、不改布线,实测可释放30%–50%潜在算力。

图片

四、最终交付的不是一套系统,而是一种可持续释放的算力质量

1稳算力:热降频减少90%AI训练任务连续性显著提升

在多个实测案例中,部署两相液冷后,GPU因高温触发的降频事件近乎归零,模型训练周期平均缩短18%,推理延迟更加稳定。

2长寿命:温区稳定减缓老化,服务器有效服役年限延长2–3

稳定的运行环境大幅降低电迁移速率,硬件资产折旧速度放缓,TCO(总拥有成本)显著优化。

3PUE:局部pPUE可达1.05–1.10,支撑双碳目标达成

相比传统方案pPUE普遍在1.3以上,两相液冷结合自然冷却模式,全年PUE稳定在1.12左右,冷却能耗下降40%以上。

4可运营:从设备管理迈向运行质量管理

通过平台实现能耗、故障、性能、成本的统一视图,运维效率提升60%,人力依赖减少,真正实现从救火式维修预测性运营的转变。

5绿色算力:让每一瓦电力都转化为可衡量的计算价值

最终,客户获得的不只是更低的能耗数字,而是一套可量化、可验证、可持续优化的算力质量保障体系——这才是高密度时代最具竞争力的基础设施能力。

当行业还在讨论有没有液冷时,领先者已在构建能不能控温的能力护城河。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值