冷却人工智能革命:热管理如何重塑数据中心

人工智能 (AI) 和高性能计算 (HPC) 的爆炸式增长正以前所未有的速度重塑各行各业。从医疗保健和金融到自动驾驶汽车和先进机器人技术,人工智能驱动的应用正在彻底改变我们的工作、生活以及与科技互动的方式。随着人工智能模型变得越来越复杂——需要处理海量数据并每秒执行数万亿次计算——对计算能力的需求也随之飙升。

这场革命的核心是数据中心,它是推动人工智能和云计算发展的关键基础设施。这些庞大的计算中心负责处理和存储训练和部署人工智能模型所需的不断增长的数据量。然而,人工智能工作负载的激增也带来了高昂的成本:更高的功耗、更大的发热量以及对冷却系统的压力。

传统的数据中心冷却方法(例如风冷和液冷)正被推向极限。现代人工智能工作负载的密度意味着服务器的运行温度比以往任何时候都高,导致过热、性能下降和硬件故障的风险不断增加。最新的人工智能服务器机架将16个燃气烧烤炉的热量塞进一个电话亭大小的空间。为了保持峰值效率并避免代价高昂的停机,数据中心运营商必须不断平衡能耗、制冷能力和可持续性目标。

更为复杂的是,AI 工作负载不仅需要在服务器层面,也需要在芯片层面实现高效的散热。GPU 和 TPU 等下一代 AI 处理器产生的热量远超传统 CPU,因此需要更精准的热管理解决方案。最新 GPU 的发热量是熨斗的十倍。随着 AI 的加速普及,数据中心创新散热策略的压力只会越来越大。

为了跟上 AI 驱动的未来,业界必须扩展和超越传统的散热方法,探索能够优化效率、可扩展性、精度和环境影响的全新解决方案。在不影响性能的情况下有效管理热量的能力将成为数据中心如何发展和竞争,以及 AI 如何在未来几年持续扩展的决定性因素。

人工智能数据中心日益严峻的散热挑战

人工智能和高性能计算 (HPC) 工作负载产生的热量远超传统计算任务。与传统应用不同,人工智能需要图形处理单元 (GPU) 和张量处理单元 (TPU) 等专用硬件,这些硬件的运行功率密度极高。这些芯片的高温需要更复杂的冷却机制,从而带来诸多挑战:

  • 能源消耗:冷却系统能耗占数据中心总能耗的近 40%。随着人工智能将计算能力推向新的高度,冷却能源需求也随之飙升。
  • 基础设施压力:许多数据中心最初的设计并非针对人工智能带来的极端热负荷,导致现有冷却系统的磨损加剧。现代化的人工智能数据中心产生的热量足以让底特律市在整个密歇根州的冬天保持温暖。
  • 可持续发展压力:全球对绿色数据中心的追求意味着企业必须在性能与环境责任之间取得平衡,因此节能冷却成为优先事项。
  • 可扩展性问题:随着人工智能的普及,数据中心必须能够高效地扩展其冷却能力,而无需进行成本高昂且破坏性的基础设施检修。
传统冷却方法的局限性

历史上,数据中心一直依赖空气冷却(使用风扇和空调机组)来管理散热。事实上,最近的估计表明,目前多达 80% 的数据中心采用空气冷却。虽然空气冷却对于传统工作负载有效,但人工智能系统不断增长的热量输出可能会超过传统空气冷却的设计承载能力。因此,空气冷却效率低下的问题可能会浮现出来,导致能源消耗过高和运营成本上升。更复杂的是,如今许多空气冷却数据中心的运营商不愿在短期内进行改造或进行大规模的基础设施投资,因此,提高现有空气冷却设施的效率和性能既极具吸引力,也需要新的思维和方法。

液体冷却已成为一种替代方案,通过直接芯片冷却或浸入式冷却技术提供更强大的散热能力。然而,液体冷却本身也面临挑战,并且肯定存在一些相对局限性:

  • 复杂性和维护:液体冷却系统需要大量的管道、专用泵以及日常维护,以防止泄漏或污染。
  • 基础设施检修:改造现有数据中心以适应液体冷却可能是一个成本高昂且后勤困难的过程。
  • 泄漏风险:液体冷却系统中的任何泄漏都可能导致严重的硬件损坏和运行中断。
虽然液体冷却可以改善热管理,但其缺点意味着数据中心运营商需要充分评估液体冷却在其特定应用中固有的相对机会和风险。现实情况是,在高峰需求期间通常响应缓慢,这迫使许多液体冷却设施为最坏情况的负载进行配置,这必然会导致一定程度的浪费。考虑固态高响应动态冷却的可能性,它可以通过提供按需冷却来释放降低冷却能耗的机会。

网络?需求显而易见,但没有万能的解决方案。然而,我们可以通过拓展思路,最大限度地提升现有解决方案的性能,并构建全新的冷却方式,从而重新审视固态冷却的各种可能性。

全新冷却解决方案的需求

为了满足人工智能和高性能计算 (HPC) 的需求,同时降低能耗并实现所需的功率和性能,业界必须寻求更先进的冷却解决方案。理想的方法应该是:

  • 可扩展:能够适应不断增长的人工智能工作负载,而无需大规模改造基础设施。
  • 可靠且维护成本低:消除泄漏或系统故障等可能影响运营的风险。
  • 节能:在不牺牲性能的情况下减少冷却能耗。
  • 可持续:有助于降低碳排放并符合企业可持续发展目标。
新兴冷却技术(包括创新的固态冷却方法)为应对这些挑战提供了有前景的解决方案。通过利用基于半导体的热管理,这些先进的系统可以提供精确、快速响应的局部冷却,从而提高效率并降低运营复杂性。

人工智能驱动数据中心的未来

随着人工智能不断突破计算界限,业界必须重新思考其数据中心冷却方案。投资新的热管理解决方案不仅可以确保持续的性能优化,还能帮助数据中心降低能耗、降低成本,并为全球可持续发展做出贡献。

数据中心运营商和行业领导者必须积极主动地采用创新的冷却技术,以确保其基础设施面向未来发展。如此一来,他们才能确保人工智能的快速发展仍然是推动其进步的动力,而不会给支持它的系统带来巨大的负担。