人工智能(AI)革命正式拉开帷幕已两年有余,分析师们在评估其颠覆性时,疑问依然多于答案。尽管创新层出不穷,但我们对人工智能未来将如何影响软件开发、制造、零售以及数百种其他应用的理解,仍仅触及皮毛。然而,对于赋能人工智能的公司——尤其是数据中心运营商、芯片制造商和网络设备供应商——而言,未来已至。

数据中心运营商正投入数十亿美元,打造全新、专用的人工智能计算集群,以处理越来越庞大、越来越复杂的模型。对高速以太网 (HSE) 端口以及更快、更高效的网络结构的需求,已经远远超出了最乐观的早期预测。

为何人工智能会推动以太网的普及和创新如此爆炸式增长? 

AI 改变一切

要理解 AI 为何对以太网生态系统产生如此大的颠覆性影响,我们需要了解这些应用对整个网络的影响有多大。简而言之,AI 工作负载带来的网络需求与传统基础设施相比,无论是从象征意义上还是字面意义上来看,都截然不同。

为了支持拥有数十亿(即将达到数万亿)密集参数的更大规模 AI 模型,数据中心运营商正在部署大量图形处理单元 (GPU) 和其他硬件加速器 (xPU)。现在,单个模型训练集群使用数万个 xPU 的情况已十分常见,而根据 Dell’Oro Group 的数据,AI 集群的规模每两年就会翻两番。显然,连接所有这些 xPU 的网络结构也在不断增长。随着大型语言模型 (LLM) 变得过于庞大,无法在任何单个节点上处理,AI 集群必须像一台庞大的分布式计算机一样高效运行。因此,网络的性能和效率已成为首要的业务关注点。

运营商报告称,当前的 AI 基础设施已要求每个 xPU 拥有 1 Tbps 的网络带宽,而且这个数字还会增长。但挑战远不止于规模。AI 网络结构必须支持数千个并行同步作业、突发的东西向流量模式,以及具有极端数据和计算要求的工作负载。至关重要的是,这些网络还必须提供极低的延迟和零丢包,以优化作业完成时间,因为即使是一个延迟的流量也可能阻碍集群中的所有节点。例如,Meta 报告称,他们早期的 AI 应用程序有三分之一的时间在等待网络。事实上,网络限制可能是 AI 盈利能力面临的最大挑战。毕竟,如果一项价值数十亿美元的 xPU 投资有 30% 的时间处于闲置状态,那就意味着数亿美元的价值损失。

为了满足这些极端要求,运营商正在探索新的网络设计。他们正在构建专用、可扩展且可路由的后端结构,以连接所有昂贵的 xPU,并越来越多地采用横向扩展的主干-叶子架构(图 1)。他们正在尽快采用供应商能够提供的高速网络接口,尤其是 800G 以太网,使用融合以太网版本 2 (RoCEv2) 上的远程直接内存访问 (RDMA) 等协议来实现所需的性能。

人工智能如何改变高速以太网的竞争格局

图1. 新兴的人工智能网络设计

以太网趋势的变迁

在人工智能数据中心投资的初期,运营商使用了各种网络技术,包括 InfiniBand、以太网,甚至定制的专有技术。然而,随着市场的成熟,越来越多的运营商倾向于尽可能使用标准化、熟悉且广泛可用的以太网。事实上,尽管早期 InfiniBand 因其无损特性而受到青睐,但 Dell'Oro Group 预测,到 2028 年,以太网将在端口出货量方面占据领先地位。

在以太网领域,HSE 在大规模人工智能网络中的应用增长迅速,加速了端口速度从 400G 向 800G 及更高速度的过渡。但需要注意的是,随着运营商将这些基础设施拆分为专用的前端和后端网络,它们的增长速度将有所不同。例如,用于提取训练数据的前端网络到 2025 年将主要继续使用 400G 以太网。然而,在专用于 AI 模型训练和推理的后端网络中,800G 以太网将从今年开始占据主导地位,到 2028 年大多数端口将发展到 1.6 Tbps(图 2)。

人工智能如何改变高速以太网的竞争格局

图2. 端口速度演变

多个行业组织也在致力于改进以太网本身,以满足人工智能网络的极致性能需求。其中最主要的是超级以太网联盟 (UltraEthernet Consortium) 的超级以太网传输 (UET) 规范,该规范对以太网上的 RDMA 操作进行了现代化改造,以支持要求更高的人工智能工作负载和流量模式。采用 UET 的产品将于今年上市。

超越超大规模数据中心

在HSE演进方面,最大的数据中心网络为何如此受关注,原因显而易见。尽管人工智能趋势确实加速了800G和1.6T以太网的普及,但这些变化正波及到市场的各个角落。我们持续看到对400G端口的强劲需求,不仅包括前端网络的超大规模数据中心,也包括电信服务提供商、二级/三级云服务提供商,以及越来越多的大型企业。随着这些客户开始进行数据中心更新,许多客户选择完全绕过200G,将400G视为一个更长期、更低成本的替代方案,并且可以更平稳地升级到800G。

这些以太网演进趋势超越了传统的数据中心,最终影响到工业和制造业、交通运输、能源、政府以及其他数十个行业(图3)。最终,任何依赖快速高效网络的组织——尤其是那些计划在未来几年投资分布式人工智能应用的组织——都应该根据这些趋势重新评估网络演进计划。结果很可能与许多最初的健康、安全和环境市场预测一样,即使是今天最乐观的预测也可能被证明不够乐观。

人工智能如何改变高速以太网的竞争格局

图3. 应用空间中以太网的演变