AI算力会成为下一个行业瓶颈吗?

关于企业级AI的讨论目前仍主要围绕性能基准、延迟以及每Token成本等模型指标展开;然而,这种关注点却忽略了当前正在重塑实际部署格局的一项关键制约因素。算力已成为一大瓶颈,因为若要实现AI系统的大规模运行,所需的底层基础设施不仅资源有限、造价昂贵,且在很大程度上游离于企业的掌控之外。

随着各类组织从实验探索阶段迈向生产落地阶段,这一制约因素将决定究竟能构建出什么样的系统、何时能够完成部署,以及系统运行的可靠性究竟如何。

起初,这种转变往往显得微乎其微:各团队或许只是微调一下项目工期,架构师们或许只是在设计上做出些许妥协,而项目成本也可能以一种难以预测的方式上下波动。然而随着时间的推移,这些零星的调整将累积并固化为一种特定的模式——即系统的设计不再以业务需求为导向,而是反过来围绕着现有的算力资源来构建。至此,算力便不再仅仅是作为一种投入要素而存在,而是彻底演变为了一种具有决定性作用的制约因素。

计算能力受限于容量

计算能力并非能随着需求的增长而无限扩展。尽管超大规模云服务提供商的运营规模已达到惊人的水平,但其基础设施仍受制于物理容量、供应链状况以及资源分配优先级所构成的局限。随着企业对AI工作负载的需求日益高涨——尤其是针对大规模推理任务的需求——各类组织正遭遇一系列瓶颈,这些瓶颈直接影响了其系统部署的方式与时机。

在项目初期的实验阶段,这些局限往往并不显眼。它们通常是在进入规模化扩展阶段时才显露出来——正是在这一阶段,对持续、稳定计算资源的需求变得至关重要。此时,各项目团队开始遭遇资源调配延迟的问题,甚至被迫调整工作负载的架构,以使其能够适配当前可用的计算容量。在某些情况下,某些项目之所以被降级处理,并非因为其缺乏内在价值,而是因为在实际需要时,其所需的关键基础设施却无法及时到位。

必要基础设施(或对其的访问权限)的缺失,必然会改变组织的决策逻辑。企业不再以追求极致性能或长期的可扩展性为首要目标,转而将“资源可用性”作为其优化的核心考量。然而,这种策略重心的转移往往会引入一系列低效因素;一旦相关系统进入正式的生产运行阶段,想要消除或扭转这些低效状况将变得异常困难。

这一制约因素也源于经济考量。

算力容量仅仅是问题的一部分。AI 基础设施的经济属性引入了第二层制约因素。运行大规模 AI 系统需要投入巨资,而当前的定价模式尚未体现出一种稳定的均衡状态。

目前,超大规模云服务提供商(Hyperscalers)正在承担其中的一部分成本,但这种动态平衡恐难维系。随着需求的持续增长,定价终将进行调整,以反映大规模提供算力服务的真实成本。那些完全依赖外部基础设施的机构,将不得不独自消化这些成本变化,且缺乏有效的议价筹码。

与这些经济因素紧密相关的,还有政策层面的考量。目前的各类企业协议通常规定,客户数据不得被用于训练 AI 模型;然而,这些政策本身隶属于一套特定的财务架构——随着成本的不断攀升,基础模型(Foundational Models)的构建者们恐怕将难以继续遵行这些政策。换言之,一旦经济格局发生转变,我们有理由预见,围绕数据使用的边界与规范也可能会随之演变。

对于那些其核心竞争优势高度依赖于专有数据的机构而言,这种潜在的可能性引入了一种不容忽视的风险。

对超大规模服务商的依赖引入了战略风险

对超大规模服务商基础设施的依赖,所产生的制约效应远不止成本层面。它限制了组织对资源的掌控权。组织无法左右计算能力的分配方式、定价模式的演变方向,也无法影响相关政策随时间的执行方式。尽管当AI系统仅处于边缘辅助地位时,这种状况尚在可控范围内;但一旦这些系统深度嵌入到核心业务流程中,这一问题便会演变为一个更为复杂的战略难题。

届时,关于基础设施的决策将直接关乎业务的可靠性与连续性。一旦计算资源的获取受限,或运营成本意外飙升,其负面影响将不再局限于单一应用,而是会迅速蔓延并波及整个工作流程。在某些极端情况下,这种状况甚至可能削弱组织提供核心服务的能力。

这种高度集中的依赖性还会引发系统性风险。当极少数服务提供商掌控了绝大多数企业级AI基础设施时,上游层面的任何中断或变动都会迅速向下游传导。尽管大多数组织在构建其风险模型时往往忽略了这一因素,但这种潜在的风险敞口却是真实存在的,且正呈日益扩大的趋势。

计算资源的获取正制约着创新

对于研发团队而言,计算资源的可用性已然开始决定他们能够构建出什么样的成果。尽管人才与数据的获取依然至关重要,但若缺乏充足的计算资源,团队进行实验与迭代的能力便会受到掣肘——对于那些试图突破通用模型局限、转而开发契合自身工作流的定制化系统的组织而言,这一点尤为突出。

久而久之,这些制约因素便会在理论上的可能性与实际的可实现性之间制造出一道鸿沟。创新固然不会因此停滞,但其发展的驱动力将不再源于自身能力的提升,而是受限于基础设施的瓶颈。那些能够更稳定地获取计算资源的组织,其发展步伐往往更为迅捷;这并非因为他们拥有更为卓越的构想,而是因为他们具备了将这些构想付诸实践的实际能力。

企业正迈向更强的掌控力

为应对上述制约因素,部分组织已开始减少对超大规模云服务商基础设施的依赖,转而将其用于关键业务负载。这种转变并非意味着彻底放弃云服务,而在于为计算资源的管治引入一种平衡之道。

混合式策略使组织既能牢牢掌控敏感数据并稳定核心系统的运营成本,又能适时充分利用云服务的弹性扩展能力。此外,企业内部基础设施(本地部署)也正被重新审视,尤其是针对那些对公司构建竞争优势至关重要的业务负载。

采取这些策略的目的,并非要彻底脱离云环境实现完全独立,而是为了获得一种能力——即在不受外部局限全面掣肘的前提下,依然能够顺畅运行。随着人工智能系统日益深度地融入企业日常运营,这种掌控力无疑将变得愈发举足轻重。

AI 治理尚未充分考量基础设施风险

大多数 AI 治理框架往往仅专注于模型行为。尽管这确实是一个至关重要的考量因素,但它未能涵盖由基础设施依赖性所引入的各类风险。

基础设施决定了系统的可用性、扩展能力,以及数据随时间推移的处理方式。当这些关键因素受制于外部控制时,便会引入一系列超越模型性能范畴的风险。

尽管存在上述风险,基础设施在 AI 治理中却鲜少被视为核心组成部分。这种脱节现象在系统评估方式与系统未来的实际可行性之间制造了一道鸿沟。一套更为全面的治理策略,必须将基础设施的韧性视为基础性要素,而非事后才补上的附带考量。

计算资源已不再仅仅是那种能够随需求自动扩展的“幕后”资源;相反,它已演变为一种关键的制约因素,直接影响着系统的设计架构、部署速度,以及组织对其自身运营所能保留的掌控程度。随着 AI 日益深入渗透至企业的核心业务职能之中,这种制约因素将变得愈发显眼,其所带来的影响也将愈发深远。

那些能够及早洞察并针对此点制定规划的组织,将处于更有利的位置,从而实现规模化发展。而那些对此视而不见的组织,终将发现其系统受制于那些自身无法掌控的基础设施。