
三年后,全球最大的人工智能集群将主要基于以太网构建。
这是博通公司在 ONUG 2025 年秋季人工智能网络峰会上发表的演讲内容。博通与思科、Meta 和英伟达等其他主要公司合作,共同开发面向规模化网络的以太网 (ESUN) 项目。他们的目标是推动以太网在人工智能系统日益增长的规模化应用领域中的发展。
了解以太网如何帮助企业应对人工智能网络预期快速增长带来的挑战。
人工智能的网络需求
根据麦肯锡2025年4月发布的一份报告,基础设施投资者计划在2025年至2030年间为数据中心新增124吉瓦的计算容量。OpenAI的目标是在未来五年内贡献其中20%的容量,这相当于在未来五年内部署约7500万个指数处理单元(XPU),包括GPU、张量处理单元和其他定制加速器。
如此庞大的计算量源于大型语言模型日益增长的复杂性。语言模型(LLM)的参数数量不断增加,同时也在向多模态发展,并融合了内存和推理等处理密集型功能。
此外,网络将在这一建设过程中发挥越来越重要的作用。大规模机器学习需要将数百万个分散的XPU连接起来,构建大型超级集群。网络为这些依赖大规模超级集群的系统提供了粘合剂——负载均衡、拥塞控制和故障处理机制——从而确保高效的作业完成时间。
“在人工智能基础设施中,网络就是超级计算机,”博通公司软件产品和生态系统负责人 Hasan Siraj 表示。
人工智能网络的规模维度
人工智能网络有三种扩展方式:
- 纵向扩展
- 横向扩展
- 跨域扩展
每种扩展方式都有不同的需求和挑战。
纵向扩展网络
纵向扩展网络配置在一个机架内容纳大约 100 个 XPU。所有加速器直接连接,可以即时访问彼此的内存。这创建了一个单跳网络,一个 XPU 可以以极低的延迟访问另一个 XPU 的内存。
横向扩展的关键要求包括高网络带宽、高效的数据传输和可靠的传输协议。预计未来几年,高带宽内存模块的总带宽将显著增长。
横向扩展网络
横向扩展网络将多个纵向扩展机架连接在一起,有可能在单个数据中心内连接数千个 XPU。架构在此阶段变得更加复杂,尤其是在从两层网络过渡到三层网络时。这使得负载均衡和拥塞控制变得极其困难。
两层架构相比三层架构具有显著优势。两层架构的优势包括:
- 所需的光收发器更少。
- 更低的延迟。
- 更高的可靠性。
- 更好的性能。
- 更低的功耗。
三层架构复杂性的增加带来了各种挑战。三层架构的缺点包括:
- 需要更多的光收发器。
- 更高的延迟——五跳而不是三跳。
- 三倍的交换机数量。
- 更多的链路故障。
- 更高的功耗。
跨域扩展网络
一个 10 兆瓦的数据中心大约可以容纳 6,000 个 XPU。更大的集群需要通过跨网络扩展实现多个数据中心之间的无损连接。跨网络扩展要求交换机具备去缓冲和线速加密功能,以保证跨设施的性能。
以太网助力 AI 扩展的优势
如今,许多大型超大规模数据中心都依赖以太网,因为它具有诸多优势。以太网的优势包括:
- 开放架构。以太网是一种开放的、基于标准的技术,由 IEEE 和其他标准组织在一个庞大的生态系统中进行管理和维护。这既鼓励创新,又避免了厂商锁定。以太网在协议栈的每一层都拥有标准,从而支持网络扩展。对于希望集成自身内存语义和调度机制的组织而言,以太网尤为重要。
- 可靠性。现代以太网技术通过实施有效的拥塞管理和流量控制机制来实现无损通信,从而最大限度地降低停机风险。
- 低延迟。现代高速以太网技术——400 Gbps 和 800 Gbps——具备直通交换和精确延迟管理等特性,能够满足人工智能网络的需求。
- 高效性。以太网节能且成本低廉。它还具有灵活性,支持向后兼容,并可使用铜缆或光纤等多种介质。
以太网横向扩展网络开发
ESUN 致力于制定横向扩展网络开发标准。这些规范概述了设计高性能、开放式大规模人工智能数据中心基础设施的原则。ESUN 通过解决以下两个关键点来推进这项开发:
- 网络功能。重点关注流量如何在网络交换机上传输,包括无损数据传输、错误处理和协议头。
- XPU 端点功能。重点关注 XPU 中通常与 XPU 架构紧密相关的方面,例如工作负载分区、内存排序和负载均衡。在 ESUN 内部,SUE-Transport 工作组致力于开发此端点功能。
通过解决这些功能领域,ESUN 实现了以下目标:
- 运营商和制造商之间的技术合作。
- CPU 网络接口和以太网交换机专用集成电路 (ASIC) 的互操作性。
- 弹性、无损的单跳和多跳组件。
- 与 Ultra-Ethernet Consortium 和 IEEE 802.3 等其他机构一致的标准和最佳实践。
- 通过以太网成熟的生态系统,在整个行业内得到广泛应用。
如果未来五年内出现 7500 万个 XPU,它们不太可能来自单一公司——市场将呈现多样性。例如,一些超大规模数据中心正在构建自己的 XPU。以太网有望促进人工智能基础设施行业的这种多样性和创新。






参与评论 (0)