OpenAI发布MRC新协议：突破超大规模AI集群网络瓶颈 -千家网

来源：千家网 2026-05-07

导读

随着超大规模企业将GPU集群扩展至数十万乃至数百万规模，网络不再是辅助组件，而是直接决定AI系统效率的核心基础设施。MRC的推出标志着AI网络架构正从传统、静态、易拥塞的传输方式向高度动态、可恢复、高并发的体系演进。

OpenAI发布MRC新协议：突破超大规模AI集群网络瓶颈

OpenAI联合AMD、Broadcom、Intel、Microsoft及Nvidia推出一种全新的网络协议——多路径可靠连接（MRC），旨在解决大规模AI集群中因拥塞与硬件故障引发的性能瓶颈。该协议已贡献给OpenComputeProject（OCP），并开始应用于新型800Gb/s网络接口设备。

随着超大规模企业将GPU集群扩展至数十万乃至数百万规模，网络不再是辅助组件，而是直接决定AI系统效率的核心基础设施。MRC的推出标志着AI网络架构正从传统、静态、易拥塞的传输方式向高度动态、可恢复、高并发的体系演进。

网络瓶颈：大规模AI基础设施的关键隐患

现代大型AI训练系统依赖加速器之间高度同步的数据交换。即便网络结构内部出现微秒级延迟，也可能导致大量GPU在等待最慢节点时闲置，形成所谓的“拖后腿效应”。随着集群规模扩大，这种效应呈指数级放大，对训练时间和成本造成显著影响。

网络拥塞、链路故障和设备异常是造成这些延迟的主要来源。在大规模集群中，这些问题发生频率更高、恢复更困难，往往导致整个训练过程受阻。

MRC：为超大规模集群设计的网络协议

MRC的核心创新在于：

不再依赖少数固定路径，而是将流量同时分布到数百条网络路径上，实现微秒级动态调度。

1.动态多路径分发

MRC可在极低延迟内将数据包“喷射”到大量可用路径，自动避开拥塞或故障节点。这种方式显著降低尾延迟，提高通信一致性，使GPU间同步更稳定。

2.源路由与SRv6

协议基于多平面网络并采用SRv6源路由，使网络接口卡（NIC）能够直接在数据包头中编码路由信息，而不再完全依赖交换机端决策。这提升了灵活性，也在硬件故障时简化重路由过程。

3.自愈式网络能力

通过多路径切换与源路由融合，MRC在局部异常情况下无需全局干预即可自动恢复通路，实现接近无中断的持续传输。

以太网在AI基础设施中的加速崛起

长期以来，Nvidia的InfiniBand以其低延迟优势在大型AI集群中占据主导。但随着AI系统规模呈现指数级增长，超大规模企业逐步推动基于以太网的方案，原因包括：

更开放、更具生态规模
更低的运营复杂度
成本优势
与现有数据中心基础设施兼容性更高

行业分析显示，到2025年，以太网在AI后端网络的出货量已显著超过InfiniBand。MRC的推出强化了以太网在高性能AI网络中的竞争力，使其能够在超大规模部署中接近甚至达到InfiniBand的性能水平。

MRC的数据包喷射模式结合IPv6标准，让以太网在保持低损耗和高吞吐的同时获得更大的灵活性，为构建普适性更强的AI网络奠定基础。

推动开放生态：行业协作的战略意义

OpenAI将MRC技术贡献给Open Compute Project，标志着其意图推动整个行业共同采用该网络架构，而非将其封闭为专有技术。

这一举措带来的价值包括：

降低超大规模运营商对特定网络堆栈的依赖
加速以太网硬件在AI场景中的成熟
实现更具成本效益的大规模部署
构建具备自愈能力的开放式基础设施

随着AI工厂规模不断扩大，这种开放模式有助于实现更强的运营弹性与跨供应链协作。

超大规模基础设施压力与“Stargate”愿景

在发布MRC的同时，OpenAI正推进其大型基础设施计划——Stargate，并已获取超过10吉瓦的计算容量（提前达到预期目标）。这一扩张揭示了新的基础设施挑战，包括：

高速增长的电力需求
冷却系统压力
网络架构稳定性
大量加速器间的同步开销

在如此规模下，即便是微型网络波动也可能引发系统级效率下降。MRC的设计目标正是确保前沿级集群在扩张到数百万GPU后仍能保持高利用率，避免昂贵的计算资源因网络瓶颈而浪费。

总结：为下一代超大规模AI打造的网络底座

MRC协议的推出不仅是一次技术升级，更是AI基础设施从传统数据中心网络向“超级规模计算工厂”过渡的关键一步。

它体现出行业共识：

未来的AI发展不再仅由GPU速度决定，而是由整个网络系统的同步、韧性与扩展能力共同决定。

通过增强以太网的性能、提升多路径调度能力、实现自愈网络架构，MRC正在成为构建新一代超大规模AI集群的重要基础，让网络不再是瓶颈，而是推动前沿AI的核心动力。

人工智能数据中心综合布线

责任编辑：Lichu

免责声明：凡注明为其它来源的信息均转自其它平台，目的在于传递更多信息，并不代表本站观点及立场。若有侵权或异议请联系我们处理。

CIBIS 2025——建筑智能化行业年度大型盛会！

第26届中国国际建筑智能化峰会，更多详情：summit.qianjia.com

参与评论 (0)

文明上网，理性发言

登录

OpenAI发布MRC新协议：突破超大规模AI集群网络瓶颈