数据中心停机可能造成巨大损失。为了有效地为客户和员工提供服务,请保持必要的正常运行时间。

在考虑使用设施来托管数据时,请检查设施的正常运行时间水平。今天就来简单说说数据中心层级,组织应通过哪些设施的特定技术提供总体可用性。

数据中心层级及其对正常运行时间的重要性

数据中心层级

正常运行时间层级有四个。每个层级都必须达到或超过前一个层级的功能。第I层级最简单,可用性最低,第IV层级最复杂,可用性最高。

I级


I级数据中心或基础数据中心拥有一条非冗余配电路径,为配备非冗余容量组件的IT设备供电,从而实现99.671%的正常运行时间可用性目标。I级数据中心有专门的空间用于IT设备,并且通常配备不间断电源(UPS)来应对短暂断电和电力峰值。

其他容量组件包括冷却系统和发动机发电机,用于保护设备免受长时间断电的影响。任何容量组件故障都会导致一级数据中心停机,定期维护也是如此。

II级


II级数据中心拥有冗余的站点基础设施和冗余容量组件,可实现99.741%的正常运行时间可用性目标。与I级一样,也有一个单一的非冗余配电路径。如果冗余组件发生故障,组织可以手动切换到冗余项目,停机时间很短,而定期维护仍然需要停机。

II级数据中心具有冗余组件,包括储能、现场发电资产、UPS模块、冷却装置和燃料箱。非冗余容量组件或配电路径的意外中断或故障仍可能影响环境。

III级


III级数据中心,即可同时维护的数据中心,具有冗余组件和多个独立分配路径,为关键IT设备提供服务。所有IT设备至少有双电源作为备份,可用性目标是正常运行时间为99.982%。

组织可以移除分配路径中的每个组件,并使用冗余容量进行计划维护而无需停机。但是,容量组件故障仍然需要手动切换到冗余组件,这会导致停机。

IV级


IV级数据中心本质上具有容错能力。它们拥有多个独立且物理隔离的系统,可提供冗余容量。冷却设备采用双电源供电,完全容错的架构可实现99.995%的正常运行时间可用性目标。

计划维护和容量组件中断会触发自动切换到冗余组件。组织可以移除分配路径中的每个组件进行维护,而无需停机。IV级数据中心的潜在设备故障应具有检测系统以维持工作负载。

在大多数情况下,成本反映的是等级。I级通常最便宜,而四级通常最昂贵。但是,一个实施良好、运行良好的III级或IV级设施的成本可能与一个运行不佳的I级或II级设施相当。

如何决定使用哪个层级

这些正常运行时间层级反映了设施的可用性目标,不一定是内部IT设备的可用性目标。组织必须确保服务器、存储和网络设备的架构以及外部网络连接为整个平台提供类似或更高级别的冗余,以满足业务需求。

大多数III级和IV级设施都有各自的内部目标,即无计划外停机时间;在面试可能的外包供应商或设计自己的设施时,请讨论这一点。正常运行时间水平可能看起来很接近和精确;但是,I级设施每年允许约30小时的停机时间,而IV级设施允许的停机时间大约不到30分钟。

在决定数据中心的等级时,请考虑业务需求。考虑一个拥有中央数据中心的分支机构,以满足其大部分关键需求,并拥有一个小型现场服务器机房来处理非关键工作负载。III级数据中心可能过于昂贵,而I级或II级设施则非常划算。

I级和II级设施通常不适合关键任务工作负载。如果必须使用它们,请确保制定计划来管理停机期间的业务运作方式。

理想情况下,将关键工作负载安置在III级和IV级数据中心。III级设施仍然需要一套可靠的容量组件故障处理程序,组织必须定期测试这些计划。即使是IV级,一切也并不总是按计划进行。简单的单冗余架构(每个容量组件由另一个备份)如果多个容量组件发生故障,仍可能导致中断。

在检查主机托管提供商时,请询问数据中心运营商更换故障组件的速度有多快,以确保快速恢复冗余。更换组件是否有库存,还是与供应商签订了合同,在规定的时间内到现场更换并安装?对于IV级设施,这应该以小时而不是天来衡量。