2026数据中心世界大会:AI将基础设施推向新的极限

近期,在2026年数据中心世界大会上,来自甲骨文云基础设施(OCI)、英伟达(Nvidia)和谷歌(Google)的工程主管们描述了一个根本性的转变:数据中心正在从“通用 IT 环境”演变为支持 AI 训练与推理的“高度集成计算系统”。

这种转变体现在基础设施的每一个层面:从供电和冷却架构到网络设计,再到建设周期。

AI负载导致数据中心“一分为二”

最显著的变化之一发生在工作负载层。甲骨文云基础设施(OCI)AI 基础设施副总裁Ram Nagappan表示,运营商现在必须针对两种截然不同的AI模式进行设计:大规模训练和分布式推理。

  • 训练负载: 将数以万计的GPU连接在紧耦合集群中,延迟和物理距离(邻近性)至关重要。

  • 推理负载: 相比之下,推理更看重广泛规模下的可用性和响应速度。

Nagappan指出,这些差异会直接影响设施的物理布局、韧性设计和网络架构。“在构建数据中心时,你必须同时兼顾这两者,”他说道。其结果是基准复杂度大幅提升:单一设施必须同时支持高度同步的系统和面向用户的分布式负载。

密度激增:迈向“兆瓦级机架”

复杂性的增加伴随着机架功率密度的急剧上升。

谷歌数据中心技术与系统部门杰出工程师 Varun Sakalkar 表示,行业已经跨越了过去十年定义的阈值。曾经被认为达到极限的30–40 kW机架,现在的测量单位已变成数百千瓦,设计方案甚至正向兆瓦(MW)级机架跨越。

这种转变创造了Sakalkar所说的“双模态环境”:传统的计算和存储基础设施继续保持平缓的密度增长曲线,而AI系统则处于一个极其陡峭的上升轨道。数据中心必须同时支撑这两种形态。

这种紧张关系迫使电力传输模式发生变革,包括探索更高电压的分配模型,以及计算与网络系统之间更紧密的集成。Sakalkar 强调:“我们设计的不再是一个机架,而是一个系统。”

电力成为首要制约因素

随着密度的升高,限制发展的因素已不再是计算能力,而是电力可用性

英伟达能源系统杰出工程师 Sean James 表示,运营商正越来越多地依赖“现场发电”(On-site Generation)来加速部署。但他警告称,这只是权宜之计。

“表后电力(Behind-the-meter power)是一个很好的过渡方案,但不是理想的长期解决方案,”James 说道。所谓“表后电力”,指的是在电力公司计量表之后、由数据中心自己控制的发电系统。和传统“只会用电”的模式不同,现在的表后方案往往具备微电网功能,不但能自给自足,还能在必要时向外部电网输出。

运营商正致力于确保电网连接容量,同时增加储能系统,以应对日益波动的 AI 负载。训练集群会引入剧烈的动态负载模式,其影响超出了数据中心本身。James 描述了发电端必须如何配合工作负载行为进行增减:“这种冲击甚至能一直回溯影响到发电厂。”

储能系统正变得必不可缺,它能平滑负载波动、维持电能质量,并满足新兴的电网要求(如电压事件期间的穿越能力)。

冷却技术:液冷成为标配,不再有争议

冷却领域正在经历类似的转型。

液冷技术曾被视为可选或小众方案,而现在已成为高密度 AI 系统的基准要求。“液冷时代已经到来,”Sakalkar 说,“现在的讨论重点是标准化。”

运营商目前必须管理混合环境,即液冷 AI 系统与风冷基础设施共存。这种混合模式增加了设计和长期规划的难度。

James 表示,行业还在应对液冷系统内部的扩展挑战,包括组件供应链以及高密度机架内部海量的连接件需求。同时,**水资源利用(WUE)**正演变为可持续性和运营风险。他指出:“数据中心需要尽可能通过工程手段实现‘去水化’。”

速度成为核心设计指标

尽管系统变得越来越复杂,但部署周期却在不断缩短。运营商的应对之道是将工作负载移至场外并推行设计标准化。

James介绍,这种方法依赖于:

  • 前置化设计: 确保能兼容多代 GPU。

  • 预制化与工厂集成: 减少现场施工量。

  • 模块化架构: 实现快速组装。

这种模式允许开发商在硬件需求不断演进的同时,既能快速交付容量,又能保持方案的可选择性。

园区即产品

在最大规模层面,设计的单位再次发生了变化。超大规模云计算巨头(Hyperscalers)不再优化单个建筑,而是将整个园区视为一个集成系统。

Sakalkar 将其描述为向“园区即产品”(Campus as a Product)的转变,这个产品必须平衡灵活性、规模化和快速部署能力。这包括针对多种负载类型进行设计、保持硬件跨代兼容性,以及协调供应链、安装和调试的每一个环节。

与传统的阶段性扩建不同,现在的 AI 园区多采用大增量部署模式,基础设施与计算资源同步上线。

压力下的系统重构

在本次论坛中,一个贯穿始终的主题是:传统的数据中心模式已不堪重负。AI 不仅仅是在增加需求,它正在改变需求的本质,在电力、冷却和交付时间上引入了全新的约束。

对于运营商而言,挑战不再是增量改进,而是系统性重塑

对于进入该行业的新一代从业者,James 给出了直接的建议:“质疑一切假设。如果某件事听起来不合理,那它很可能就是不合理的。”

千家观察:从“机房”到“超级计算机”的蜕变

作为长期关注基础设施演进的观察者,我们从 2026 年数据中心世界大会释放的信号中看到了三个关键趋势:

  1. 基础设施“硅片化”: 过去,数据中心是承载服务器的“盒子”;现在,正如谷歌专家所言,整个数据中心正在变成一台巨大的、高度集成的系统。这意味着土木工程与芯片工程的边界正在模糊,数据中心设计者必须像设计处理器总线一样去设计电力和网络拓扑。

  2. 电力从“资源”变为“变量”: 过去电力是即插即用的稳定资源,但在 AI 训练的极高动态负载下,电力变成了需要通过储能和现场发电来实时调控的“动态变量”。“表后供电”和“兆瓦级机架”的出现,标志着数据中心正深度参与到电网的调峰填谷中,身份从单纯的消费者转变为电力网络的主动节点。

  3. 标准化与定制化的博弈: 尽管液冷和模块化在走向标准化,但为了追求极致性能,超大规模厂商的园区设计越来越具有“排他性”。这种“园区即产品”的思维,可能会导致未来数据中心市场出现明显的分层:一类是支持长尾通用需求的标准化设施,另一类是为顶级大模型定制的、由巨头垄断的“巨型AI工厂”。

总而言之,2026 年是数据中心物理层彻底“重写代码”的一年。面对 AI 的极限挤压,唯有打破物理设计的旧框框,才能换取智能算力的新空间。