为何存储正成为AI基础设施的制约因素

随着 GPU 云服务提供商的业务模式从单纯销售原始算力转向销售有保障的业务成果,服务水平协议(SLA)不再像过去那样是区分竞争力的独特优势;如今,它已成为一项基本的商业先决条件。这一转变反映了当前的市场现实:人工智能(AI)正迈入大规模生产环境,在这些环境中,算力、数据和存储必须作为一个统一的整体系统协同运作。因此,服务提供商如今已普遍承诺提供极高水平的“机架级”系统可用性;而那些无法满足此类预期的厂商,往往在商谈尚未正式开始之前,便已在竞争中败下阵来。

然而,在这些服务承诺的背后,正日益显现出一个根本性的性能难题:存储系统的可用性必须高于(而非仅仅持平于)算力系统的可用性。举例而言,若共享存储系统的可用性为 98%,而算力系统的可用性为 99.5%,那么实际的“机架级”SLA 水平将随之降至 97.5%——这一数值已低于客户实际付费所应享有的服务标准。在大规模部署场景下,这种可用性短板将迅速导致大量的 GPU 算力处于闲置状态,并带来因违反 SLA 承诺而需支付违约赔偿金的实质性风险。

以包含 50 个机架、共计 5000 块 GPU 的部署规模为例,上述可用性差距将导致每年高达 87.6 万个 GPU-小时的算力流失,造成约 260 万美元的算力资源闲置损失;此外,服务提供商还需同时针对全部 50 个机架,依据合同条款向客户支付相应的 SLA 赔偿金(即服务抵免额)。这些数字背后所蕴含的深意既显而易见,又至关重要:服务提供商所承诺的 SLA 水平,实际上仅取决于其技术堆栈中“最薄弱”的那一环。而在绝大多数 AI 应用环境中,这一“最薄弱”的环节正是存储系统。

存储系统是否真正“适得其用”?

若要将其置于恰当的语境中审视,我们会发现:大规模 AI 工作负载高度依赖于对分布式系统中存储的共享数据进行持续、高吞吐量的访问。存储环节的任何层级出现中断——无论是元数据故障、网络超时、访问受阻,还是其他种种潜在问题——都可能导致 AI 工作负载被迫中断或延误,进而引发一系列显而易见的连锁反应。

在规模化运行的环境下,此类中断会立即转化为可量化的运营损失;举例而言,数据管道一旦发生故障,每小时造成的经济损失约为 30 万美元。必须明确指出的是,这绝非仅限于极端故障情境下的特例;事实上,分布式系统内部的常规性故障同样可能引发此类问题。

大多数 GPU 云架构在设计之初,其存储部分仅被定位为“暂存存储”(Scratch Storage)——即一种生命周期短暂、旨在追求极致速度而非构建稳健运营基础架构的临时性解决方案。然而,AI 生产环境下的服务水平协议(SLA)所提出的存储需求,在本质上与此类设计理念截然不同。

在此背景下,存储系统不再仅仅是一个被动的底层组件;它直接决定了计算资源能否得到高效利用。正是这种关键性的依赖关系,将原本仅停留在理论层面的 SLA 缺口,转化为实实在在的运营难题与财务风险。因此,衡量存储系统优劣的关键指标,并非其在理想条件下所能达到的“峰值吞吐量”,而是在部分组件发生故障时,其能否依然维持“持续稳定的性能”。

当然,这里的关键问题在于:为何会出现这些问题?又该采取何种措施来加以缓解?目前,许多应用于 AI 环境的存储架构最初的设计初衷是为了追求性能与吞吐量,而非为了实现持续且具备服务水平协议(SLA)保障的稳健运行。例如,RAID 或高可用性对(High-Availability Pairs)虽然能够针对单一组件故障提供防护,但对于当前及未来的 AI 应用场景而言,其扩展能力却显得捉襟见肘。

在其他应用环境中,若过度依赖传统架构或分布式程度不足的架构,一旦发生组件故障,便难以维持既定的可用性与吞吐量水平,进而导致系统性能显著下滑。由此必然引申出一个事实:随着存储系统规模扩展至数百个节点,发生故障的概率也会随之攀升;此时,多重故障并发出现将不再是偶发的异常事件,而会演变为一种常态化的运行工况。因此,真正值得关注的核心问题并非系统在上线首日所能达到的峰值吞吐量,而是在第二个节点发生故障之后,系统依然能够维持怎样的吞吐量水平。

因此,对于各地的AI工厂而言,基准性能与运行弹性之间的鸿沟正迅速演变为一个决定性的关键问题。为了应对这一挑战,存储系统的设计必须确保其不仅在理想情境下,更在发生故障时依然能够维持高可用性和卓越性能。

至关重要的是,弹性必须被内嵌于系统架构本身之中;通过采用分布式技术(包括“无共享”设计),系统应消除对单一组件的依赖,从而确保即使在部分组件发生故障时,整个系统仍能持续正常运行。此外,数据完整性问题必须在极短的时间窗内被及早检测并修复;同时,通过在贴近实际的运行环境下定期进行恢复流程测试,基础设施的整体弹性应被提升至最高水平。

其核心要义在于:对于当前大规模运行的AI工作负载而言,若仅凭性能基准测试结果来部署存储系统,将无法真实反映实际的运行状况。尽管AI行业正以前所未有的规模持续采购存储容量以满足既定的性能指标,但除非这些存储系统在设计之初就充分考量了故障场景下的可用性与吞吐量维持能力,否则,服务水平协议(SLA)中承诺的性能与实际交付的性能之间存在的鸿沟将始终无法弥合。在这样的运行环境中,能否持续提供稳定如一的性能,将最终决定项目的成败。