传统数据中心机架长期徘徊在10–30 kW区间,设计规范、供电母线、散热通道皆以此为原点。进入2025年,训练万亿参数模型所需的GPU密度把单机柜推向100 kW、200 kW,英伟达公开路线图更将600 kW列为2027年“标准机架”目标。功率密度三年激增十倍,意味着铜排、风冷、48 V直流、列间空调等“经典架构”全部撞墙。本文从供电、散热、功率器件、机房土建四个维度拆解:600 kW机架为何成为AI数据中心的“新稳态”,以及产业如何携手跨越这场物理极限大考。

AI算力密度引爆功率雪崩
大模型训练依赖“卡间带宽+卡内算力”双重扩展:单卡功耗从V100的300 W升至B200的1 kW,满配8卡即8 kW;NVL72把72个GPU+36个CPU塞进一个6 U“计算托盘”,单托盘25 kW,一个42 U机架可装下12托盘,理论峰值300 kW;英伟达Kyber架构进一步把288 GPU装进同一机架,配合1.6 T光模块和DPU,整机峰值突破600 kW。当“机柜”进化为“AI Factory in a Rack”,功率密度不再由服务器数量决定,而是由硅光互连与液冷通道决定。
48 V走向尽头:电流超标与铜排肥胖症
以48 V输送600 kW,理论电流高达12 500 A;即使采用叠层铜母线,截面积也需1 200 mm²,重量>200 kg,机柜承重、地板荷载、走线空间全部告急。同时,大电流带来I²R损耗:每增加1 mΩ接触电阻就损失1.56 kW,整柜损耗轻松超过30 kW,相当于多开一台“电炉”。48 V架构在200 kW级别已逼近物理极限,600 kW必须换轨高压直流。
800 V HVDC登场:降流、提效、缩体积
行业把目光投向800 V直流(±400 V),电流降至750 A,仅为48 V的6%,母线截面积缩小20倍,线槽重量下降85%,配电损耗降低5%–7%。
能效链:市电→800 V DC→48 V DC→12 V DC→芯片,减少两级AC-DC变换,整链路效率提升3%–4%,对600 kW机架意味着年省电210 MWh,折合13万美元电费。
空间链:800 V采用直径6 mm铝管即可替代原本10×100 mm铜排,机柜背部腾出4 U空间,可多放4个GPU托盘,算力密度再增20%。
安全链:800 V需符合IEC 62368-1高压隔离,连接器采用touch-safe设计,绝缘监测模块实时检测mA级漏电流,确保人身与设备安全。
功率器件:SiC/GaN撑起高频高压
高压架构需要高开关频率以减小磁性元件体积,传统硅MOSFET在800 V/100 kHz工况下效率骤降,SiC与GaN成为唯一选择:
SiC JFET:导通电阻仅硅基一半,开关损耗降低40%,英飞凌、安森美已推出800 V/100 A模块,用于800 V→48 V DC-DC,效率98.3%;
GaN HEMT:频率可达1 MHz,功率密度>2600 W/in³,ST与英伟达联合开发的12 kW/800 V电源板仅手机大小,为机架级“电源砖”奠定基础;
集成封装:将驱动、保护、电流采样与功率芯片合封,减少寄生电感,支持500 kHz开关,磁性元件体积缩小60%,让600 kW电源可塞进4 U空间。
液冷:从“选配”到“强制”
600 kW机架热流密度≈15 kW/ft²,风冷极限仅2 kW/ft²,液冷成为“强制标配”:
冷板级:GPU/CPU采用micro-fin结构,流量8 L/min即可带走25 kW;
机架级:CDU(Coolant Distribution Unit)从1 MW升级到2.3 MW,单柜可支持288 GPU满载600 kW;
设施级:冷却液温度升至45 ℃,全年自然冷却>300天,PUE降至1.08;
热回收:45 ℃回水可直接用于楼宇供暖或区域供热,北欧新建数据中心把“废热”作为第二收入,摊薄运营成本8%。
机房土建:楼板、层高、承重全部重写
传统机房楼板承重1.2 t/m²,600 kW机架满载重量>2.5 t,需加建钢梁或采用立体网格地板;层高从4.5 m提升至6 m,顶部留出1.5 m用于液冷歧管与光缆槽;消防系统放弃气体灭火,改用细水雾+高压氮气复合,既扑灭电池火又保护电子设备。可以说,600 kW机架不是“放进去”,而是“建出来”。
经济效益:CAPEX换OPEX的杠杆
CAPEX:800 V HVDC系统单kW成本增加120美元,但节省铜排、开关、线缆后,整柜造价反而下降7%;
OPEX:600 kW机架年电费52万美元,相较48 V方案节电3%,三年回本;再加上热回收收益,TCO下降10%–12%,成为云厂商“降本增效”的新杠杆。
生态演进:从“卖盒子”到“卖系统”
芯片厂:博通、英伟达提供参考设计,把电源、液冷、机械一并打包,芯片商变身“基础设施公司”;
设备商:维谛、Vertiv推出2.3 MW CDU整机,与GPU同周期迭代,电源散热成为“订阅服务”;
运营商:北欧、魁北克、阿联酋等可再生能源富集区域,凭借低价绿电吸引600 kW级超算集群,数据中心选址逻辑从“靠近用户”转向“靠近绿电”。
路线图:600 kW只是中继站,1 MW已在视野
英伟达透露,2028年Feynman架构将把机架功率推向1 MW,液冷需要再次革命,可能走向浸没+喷射混合;SiC器件目标击穿电压1.7 kV,母线电压有望升至1 kV,电流控制在1 kA以内,为单柜1 MW提供物理可能。
总结
600 kW机架不是简单的数字游戏,而是供电、散热、功率半导体、土建、运维五大系统的耦合重构。它把“数据中心”从楼层级压缩到机柜级,把“能效”从PUE 1.5拉到1.08,把“算力”从分布式拉回高密集中。谁先完成800 V HVDC、液冷、SiC/GaN、承重土建的四重跨越,谁就能在2027年AI Factory竞赛里掌握“电力-算力”定价权,让“瓦特”直接兑换“FLOPS”,奠定下一代AI基础设施的硬核标准。






参与评论 (0)