人工智能 (AI) 持续推动着众多行业的转型,随着这项技术的快速发展,支撑其发展的基础设施也随之快速发展。
全球数据中心正在经历重大变革,以适应 AI 工具对硬件、网络、能耗和冷却系统带来的高功耗需求。一些企业甚至正在构建专用的 AI 数据中心,以推动自身 AI 技术的发展。
那么,与传统数据中心工作负载相比,AI 技术对数据中心基础设施究竟有何要求?
从 CPU 到 GPU
AI 在数据中心环境中面临的最大挑战之一是其严重依赖基于 GPU 的计算。GPU 通过处理大量并发计算来支持 AI 模型。这对于满足训练和运行 AI 模型所带来的巨大计算需求至关重要。传统 CPU 可能擅长顺序处理,但因此,它们的速度太慢,无法使许多 AI 模型达到最佳性能。
所有这些都意味着 AI 数据中心必须配备大量 GPU,而这些 GPU 的工作电压更高,因此能耗显著增加。更高的功率意味着更多的热量,这也给需要平衡电力需求、冷却效率和成本控制的数据中心所有者和运营商带来了新的挑战。
由于支持 AI 的机架所需的功率比传统机架高出六倍,数据中心开发商越来越优先考虑可再生能源丰富且气候自然凉爽的地区。加拿大和冰岛的地区是理想的选择,因为那里拥有丰富的水力和地热能,能够为高密度 AI 工作负载提供可靠且经济实惠的电力。
然而,位置的选择始终关乎取得适当的平衡。这种对战略位置的关注带来了一种权衡:数据中心设施可能建在距离最终用户较远的地方,因此需要考虑任何对延迟的潜在影响。对于一些数据中心来说,这是一个折中方案——选择水力发电和气候温和的地区,同时投资先进的冷却技术,例如液体冷却和芯片直接冷却,以提供更好的散热效果和更高的能源效率。
网络创新助力 AI 需求的不断增长
AI 对服务器的计算需求日益增长,因为越来越多的数据需要以尽可能快的速度往返于 GPU 之间。
AI 驱动的应用程序也需要指数级增长的带宽才能高效处理其所需的海量数据。服务器可能需要高达 100Gbps 的数据传输速度,以确保 AI 工具和应用程序正常运行。要实现这一目标,GPU 计算提供商必须改变其网络堆栈的选择和构建方式。这些提供商可能已经使用了多年的组件将不再适用,需要重新进行选择和研发流程。
因此,数据中心运营商正在投资高性能互连,以加速 GPU 集群和 TPU(张量处理单元)等大量计算节点之间的数据传输,所有这些节点对于高效训练和运行复杂的 AI 模型都至关重要。投资于能够提供更高吞吐量、更高可靠性和更低延迟的先进网络硬件也同样重要。
AI 数据中心的未来
为了保持领先地位,每个人都在努力抓住机遇,而现在,这个机遇就是 AI。
从技术上讲,AI 可以在任何数据中心运行。但 AI 基于 GPU 的计算需求对电力和冷却提出了更高的要求,这意味着并非所有数据中心都针对 AI 的运行进行了成本优化。在一个竞争激烈、对 AI 创新需求旺盛的行业中,对基于传统数据中心的 AI 工作负载提出更高的要求意味着成本很容易螺旋式上升。
对于任何正在为 AI 构建数据中心的运营商来说,管理这些成本都是一个关键考虑因素。虽然许多企业愿意为运行 AI 工作负载支付额外费用,但如果数据中心运营商想要保持竞争力,他们就必须找到抵消这些成本的方法,并避免将额外费用完全转嫁给客户。

智能家居安装
与售后服务平台
参与评论 (0)