OpenAI发布MRC新协议:突破超大规模AI集群网络瓶颈  


OpenAI联合AMD、Broadcom、Intel、Microsoft及Nvidia推出一种全新的网络协议——多路径可靠连接(MRC),旨在解决大规模AI集群中因拥塞与硬件故障引发的性能瓶颈。该协议已贡献给OpenComputeProject(OCP),并开始应用于新型800Gb/s网络接口设备。

随着超大规模企业将GPU集群扩展至数十万乃至数百万规模,网络不再是辅助组件,而是直接决定AI系统效率的核心基础设施。MRC的推出标志着AI网络架构正从传统、静态、易拥塞的传输方式向高度动态、可恢复、高并发的体系演进。

OpenAI发布MRC新协议:突破超大规模AI集群网络瓶颈

网络瓶颈:大规模AI基础设施的关键隐患


现代大型AI训练系统依赖加速器之间高度同步的数据交换。即便网络结构内部出现微秒级延迟,也可能导致大量GPU在等待最慢节点时闲置,形成所谓的“拖后腿效应”。随着集群规模扩大,这种效应呈指数级放大,对训练时间和成本造成显著影响。

网络拥塞、链路故障和设备异常是造成这些延迟的主要来源。在大规模集群中,这些问题发生频率更高、恢复更困难,往往导致整个训练过程受阻。

MRC:为超大规模集群设计的网络协议


MRC的核心创新在于:

不再依赖少数固定路径,而是将流量同时分布到数百条网络路径上,实现微秒级动态调度。

1.动态多路径分发

MRC可在极低延迟内将数据包“喷射”到大量可用路径,自动避开拥塞或故障节点。这种方式显著降低尾延迟,提高通信一致性,使GPU间同步更稳定。

2.源路由与SRv6

协议基于多平面网络并采用SRv6源路由,使网络接口卡(NIC)能够直接在数据包头中编码路由信息,而不再完全依赖交换机端决策。这提升了灵活性,也在硬件故障时简化重路由过程。

3.自愈式网络能力

通过多路径切换与源路由融合,MRC在局部异常情况下无需全局干预即可自动恢复通路,实现接近无中断的持续传输。

以太网在AI基础设施中的加速崛起


长期以来,Nvidia的InfiniBand以其低延迟优势在大型AI集群中占据主导。但随着AI系统规模呈现指数级增长,超大规模企业逐步推动基于以太网的方案,原因包括:

  • 更开放、更具生态规模
  • 更低的运营复杂度
  • 成本优势
  • 与现有数据中心基础设施兼容性更高

行业分析显示,到2025年,以太网在AI后端网络的出货量已显著超过InfiniBand。MRC的推出强化了以太网在高性能AI网络中的竞争力,使其能够在超大规模部署中接近甚至达到InfiniBand的性能水平。

MRC的数据包喷射模式结合IPv6标准,让以太网在保持低损耗和高吞吐的同时获得更大的灵活性,为构建普适性更强的AI网络奠定基础。

推动开放生态:行业协作的战略意义


OpenAI将MRC技术贡献给Open Compute Project,标志着其意图推动整个行业共同采用该网络架构,而非将其封闭为专有技术。

这一举措带来的价值包括:

  • 降低超大规模运营商对特定网络堆栈的依赖
  • 加速以太网硬件在AI场景中的成熟
  • 实现更具成本效益的大规模部署
  • 构建具备自愈能力的开放式基础设施

随着AI工厂规模不断扩大,这种开放模式有助于实现更强的运营弹性与跨供应链协作。

超大规模基础设施压力与“Stargate”愿景


在发布MRC的同时,OpenAI正推进其大型基础设施计划——Stargate,并已获取超过10吉瓦的计算容量(提前达到预期目标)。这一扩张揭示了新的基础设施挑战,包括:

  • 高速增长的电力需求
  • 冷却系统压力
  • 网络架构稳定性
  • 大量加速器间的同步开销

在如此规模下,即便是微型网络波动也可能引发系统级效率下降。MRC的设计目标正是确保前沿级集群在扩张到数百万GPU后仍能保持高利用率,避免昂贵的计算资源因网络瓶颈而浪费。

总结:为下一代超大规模AI打造的网络底座


MRC协议的推出不仅是一次技术升级,更是AI基础设施从传统数据中心网络向“超级规模计算工厂”过渡的关键一步。

它体现出行业共识:

未来的AI发展不再仅由GPU速度决定,而是由整个网络系统的同步、韧性与扩展能力共同决定。

通过增强以太网的性能、提升多路径调度能力、实现自愈网络架构,MRC正在成为构建新一代超大规模AI集群的重要基础,让网络不再是瓶颈,而是推动前沿AI的核心动力。