高密度数据中心为何需要液冷技术

配备高性能GPU的高密度数据中心正在通过释放人工智能的力量来改变世界的运作方式。它们也在释放其他东西——巨大的热量。冷却这些数据中心中耗电量大的GPU机架的唯一方法是使用液体。但部署液体冷却系统可能首先需要解决首席财务官和董事会成员对该技术的担忧。

高密度数据中心所需的液体冷却系统的前期成本高于传统数据中心使用的空气冷却系统。人们还担心用水量,最大的数据中心每天能够消耗数百万加仑的水。对于一些人来说,在试图将液体排除在外几十年后,将液体带入白色空间的想法可能是违反直觉和有风险的。

设施运营团队可以通过制定液体冷却的商业案例来消除这些担忧,该案例传达了液体冷却的必要性,并结合了设计最佳实践的价值。

确定液体冷却的必要性

一些领导者认为,用于AI工作负载的高性能GPU机架可以简单地放入传统的数据中心基础设施中。但是,当每个机架的功率密度超过15-20kW时,传统数据中心使用的空气冷却系统很难跟上。另一方面,液体的导热系数是空气的15-25倍。

简而言之,为了使高密度数据中心可靠运行,它需要一个同样强大的液体冷却解决方案。该解决方案可以是闭环的,通过三种设计方法之一来最大限度地减少水分损失:

  • 直接芯片冷却将水放在IT设备内的散热器或冷却板上以散热。
  • 后门热交换器在热空气进入白色空间之前,通过线圈从IT设备中捕获热空气,然后将热量传递给水。
  • 浸没式冷却将IT系统浸入非导电液体冷却剂中以吸收其热量,然后使用热交换器将热量传递出去。
无论采用何种设计方法,都应结合GPU基础设施进行设计,以确保其能够提供正确的冷却性能。例如,与知道GPU将消耗多少功率一样重要的是,知道它将消耗多少冷却。先进的规划也有助于及早发现关键问题,比如建筑物是否有现有的冷冻水容量来支持液体冷却系统。

数据中心液冷的真实成本

如果领导者只考虑液冷系统的资本支出 (CAPEX) 影响,他们就会忽略全局。液冷可以节省运营支出 (OPEX),并有可能在不到两年的时间内收回资本支出。

例如,一对冷却分配单元循环水所需的功率,远低于风扇墙冷却空间所需的能量。液冷系统还能在更有针对性的占地面积内运行,仅冷却 IT 基础设施中产生热量的区域,而不是整个房间。室温每升高一度,数据中心就能节省 1-2% 的能源。

如果需要在多个数据中心部署液冷系统,采用与供应商无关的设计方案也能节省成本。这包括创建标准化设计,使其在不同位置提供相似的性能特征,同时最大限度地减少每次部署的返工。它还能根据数据中心的环境和运营需求匹配合适的供应商技术,而不是强制数据中心采用特定的供应商技术。

发掘简化机会

液体冷却系统不必成为组织的负担。在这些系统的整个生命周期中,都有机会简化其部署、使用和维护,从而最大限度地减少对员工的需求。

首先,拥有丰富的液冷技术部署经验的合作伙伴可以为企业提供全方位的帮助,从评估设施基础设施到规划和设计定制的液冷系统,再到采购和供应技术。该合作伙伴还可以承担一些关键任务,以简化部署流程,例如保管预购组件,避免它们在企业数据中心闲置,以免损坏或被盗。

液冷系统的数据还可以以最方便负责监控和维护的人员的方式集成。例如,如果负责监控和维护的人员是设施运营团队,则可以将数据集成到他们的楼宇管理或自动化系统中。这样,该团队就可以像监控其他楼宇系统一样,轻松地监控液冷系统。

液冷预热

通过明确液冷的需求并展示其带来的节能和效率,数据中心团队可以打造一个令人信服的液冷方案,并利用最先进的技术在未来数年内保护其高价值、高能耗的 GPU 机架。