2025 年的人工智能:多模式、数据访问和基础设施

Alluxio的创始人兼首席执行官李浩源分享了他对2025年技术发展的预测。

据李介绍,多模态训练预计将在2025年成为一种更主流的方法,促进文本、图像、音频和视频等多种数据类型在模型训练中的整合。这种方法有望提高人工智能系统理解和处理复杂现实世界数据的能力,从而促进更多的上下文感知应用程序。例如,在自动驾驶中,理解视觉、听觉和文本数据的要求至关重要。由于训练环境日益复杂,多模式模型的使用增加也可能推动对先进硬件和存储解决方案的需求。

李预测,到2025年,预培训将成为开发大型语言模型(LLMs)的组织的关键差异化因素。人工智能领域的发展将使访问大型数据集,特别是特定行业的数据集,成为一项主要的竞争优势。使用广泛的数据基础设施来利用这些大规模数据集的公司可能会成功地微调模型,以提供专门的解决方案。然而,在管理数据准备、清理和转换方面将出现挑战,这将成为开发稳健和相关LLM成功的关键因素。

随着工作负载的要求越来越高和分布越来越广,解决数据访问挑战对于人工智能的成功将变得越来越重要。数据在多个云和存储系统中的激增给数据可用性和移动带来了瓶颈,特别是对于人工智能培训。组织需要有效地管理分布式环境中的数据访问,以最大限度地减少数据移动和重复。在保持数据本地性的同时提供快速、并发访问数据的能力将使成功的组织在扩展人工智能计划方面脱颖而出。

人工智能驱动的云经济的演变将通过将重点从传统的云成本优化转移到人工智能特定的投资回报率优化来重塑基础设施决策。组织将精心设计复杂的模型来预测各种基础设施选项的人工智能工作负载成本,从而制定出细致入微的混合部署策略。这涉及在云和本地资源之间平衡培训和推理工作负载的成本效益权衡。

为了应对人工智能模型训练数据集的指数级增长,李预计,到2025年,最大限度地提高GPU利用率将成为现代数据中心的重点。优化昂贵的GPU基础设施投资的压力预计将推动硬件和软件设计的进步,以确保训练所需的持续大量读取带宽,同时最大限度地减少检查点节省时间。成功的组织将是那些在管理更大的模型检查点和增加数据需求的同时保持GPU资源持续高效的组织。

预计将从传统的MLOps演变为全面的AIOps平台,管理人工智能系统的整个生命周期。这些平台有望为模型和基础设施集成先进的监控和自动化功能,促进预测性维护和人工智能系统优化。组织可能会采用将人工智能模型视为动态系统的做法,在部署管道中嵌入持续学习和适应。预计将有新的版本控制、测试和部署工具和实践,以处理多模式模型和分布式训练设置的复杂性。

Alluxio创始人兼首席执行官李浩源表示:“2025年将是人工智能基础设施创新的关键一年,随着多模式人工智能成为主流,对计算和数据基础设施的需求将继续飙升,重新定义我们如何训练和部署模型,并改变组织管理整个人工智能生命周期的方式。”。“随着数据访问挑战的增长和人工智能特定的云经济成为焦点,拥抱这些创新的企业将在推动人工智能驱动的创新和效率方面处于领先地位。”