为什么高可用性对您组织的云战略很重要?

我们的云平台支持大量组织的关键业务运营。这些组织不能冒险让他们的服务离线一秒钟,但是没有服务器、硬盘驱动器或网络连接是 100% 可靠的——组件发生故障并且它们发生了不可预测的故障。

我想看看我们所做的一些工作,以确保我们的云平台组件不可避免的故障不会影响其托管的站点和服务的性能和正常运行时间。

云平台建立在硬件和软件的复杂基础之上。因为所有这些部分都是相互依赖的,任何组件的故障都可能意味着整个系统的故障。单点故障会使整个系统处于危险之中。但是为高可用性设计的系统使用冗余来确保没有单点故障。

我们的目标是使基础设施部署和管理尽可能简单和可靠。客户可以通过单击按钮或 API 请求将服务器部署到我们的云平台上。但在客户看到的界面之下是许多复杂的工程,包括物理服务器、存储阵列、网络硬件、外部网络连接、负载平衡器、虚拟化层和广泛的软件堆栈。

这些组件相互依赖,如果没有冗余,任何一个组件的故障都可能意味着整个平台的故障。例如,如果保存重要客户端数据库的存储出现故障,则该客户端的整个云平台的有效性可能会受到影响。网络连接也是如此:如果网络连接失败,云中运行的任何站点和服务都可能与外界断开。

对整个系统的健康至关重要的任何组件都是单点故障。传统的托管环境充斥着单点故障。考虑许多低流量网站使用的共享托管环境:通常,每台服务器将挤满尽可能多的网站。如果服务器的任何部分出现故障,所有这些站点都将处于脱机状态。

显然,这对于在云中运行的关键业务服务是不可接受的,这就是我们的云平台旨在提供高可用性的原因。

为高可用性设计的系统使用冗余来确保没有单点故障。 不可能保证任何单个组件长期可靠。 事实上,您可以保证系统的某个部分会在某个时候出现故障。 高可用性系统不信任任何一个组件的可靠性。 相反,系统作为一个整体被设计为可靠的。

我们高可用性云的每个部分都有冗余备份系统和故障转移机制。 如果我们的其中一台服务器出现故障,我们的系统将检测到故障,将服务器从池中移除,所有操作将转移到冗余服务器。 网络连接、存储和我们云平台的其他各个部分也是如此。 我们对平台进行了设计,因此一个或多个组件的故障不会降低整个系统的可靠性。