以太网的开放生态系统解锁人工智能基础设施供应链

2023年和2024年,由于供应链受限以及关键基础设施组件交付周期过长,人工智能行业面临着前所未有的挑战。人工智能训练和推理工作负载(尤其是在生成式人工智能领域)的需求激增,需要强大的计算能力和高性能网络解决方案。然而,此类基础设施的可用性却受到严重限制,主要原因是依赖于NVIDIA GPU和InfiniBand网络——一种专有的单一供应商网络解决方案。对封闭生态系统的依赖导致了瓶颈,供应短缺和特定供应商的限制延缓了部署进度,限制了对所需人工智能计算资源的访问。

开放以太网的案例

一场根本性的转变正在发生,人工智能基础设施正从专有的封闭式网络解决方案转向开放的以太网生态系统。与单一供应商独占的 InfiniBand 不同,以太网提供了一个开放的多供应商生态系统,消除了供应链限制并促进了创新。多家供应商可以提供基于以太网的网络解决方案,从而减少对单一供应商的依赖,并确保更灵活、可扩展且更具弹性的人工智能基础设施。

以太网在各行各业的广泛应用、经济高效且可扩展的特性使其成为 InfiniBand 专有网络解决方案的有力替代方案。以太网的开放性使 AI 基础设施构建者能够实现采购策略的多样化,确保互操作性,降低交付周期长的风险,并缓解可用性受限的问题。此外,随着以太网的不断发展,它正在为许多此前限制其适用于 AI 工作负载的挑战提供解决方案。

解决以太网性能限制

虽然以太网传统上由于性能限制而被视为 AI 后端网络的次要选择,但持续的进步正在缩小这一差距。标准以太网本身并不能满足 AI 工作负载的高性能需求,但多家供应商和超级以太网联盟 (UEC) 正在努力制定新的标准,使以太网能够为 AI 做好准备。

面向 AI 的以太网关键创新包括:

基于网卡 (NIC) 的调度:基于网络接口控制器 (NIC) 的解决方案在以太网边缘执行拥塞管理。它们持续监控网络性能并采取措施,最大限度地减少拥塞和丢包。

基于网络结构的调度:基于网络结构的调度正在将以太网从一种不可预测、有损的技术转变为一种可预测、无损的技术。这种先进的调度解决方案可确保进入网络的每一条数据都能传送到目的地。可预测的延迟可实现最高级别的同步,确保所有 GPU 都得到充分利用。

以太网:AI 后端网络的未来

随着 AI 的普及速度不断加快,各组织正在寻求可扩展、经济高效且广泛可用的网络解决方案。迈向开放的以太网生态系统,能够有效应对近年来困扰 AI 基础设施的供应链瓶颈和可用性挑战。除了拓宽网络设备生态系统外,以太网还支持灵活选择光模块和网卡供应商,而这些因素在很多情况下正是主要的瓶颈所在。根据 650 Group 2024 年 12 月发布的预测报告,以太网收入占数据中心 AI/HPC 后端网络收入的比例将从 2024 年的 25% 增长到 2025 年的 61%,并在 2026 年进一步增长至 75%。

随着 AI 专用以太网标准的不断进步,以太网将在未来 AI 网络中占据主导地位,这一点已逐渐清晰。业界向基于以太网的网络解决方案转型,不仅是为了解决供应限制问题,也是为了构建更具竞争力、创新性和弹性的 AI 基础设施格局。随着开放以太网生态系统的扩展,AI 云构建者和企业可以期待更高的可用性、更低的成本和更佳的性能,从而使以太网成为 AI 后端网络的最佳选择。

作者:Sani Ronen