直击亚马逊AWS服务中断事故

燕麦云 2012-06-26

人们对亚马逊AWS服务中断事故的批评并没有切中要害。云计算的批评者以及对此事道歉的人士并没有指出亚马逊AWS服务中断事故的根本原因所在：任何科技都有失败的时候。
直击亚马逊AWS服务中断

6月14日亚马逊AWS服务云计算平台在佛吉尼亚（美国东部）的数据中心出现了重大服务中断事故。很明显，由于电力中断造成的网络服务中断事故使得该数据中心独立运营的4个服务区域中其中一个的营业率下降。其结果是，服务中断的几个小时之内许多受欢迎的网站以及很多不太流行的网站在网络中都搜索不到。如曾经发生的事故一样，亚马逊和微软的服务中断事故也引起了对于云计算前途的大辩论。不过令人奇怪的是，与去年4月份 AWS 服务中断事故的人们的反应相反，这次人们争相为亚马逊辩解。这可能反映了人们对于云计算态度的转变并意识到出现失败是现实的，不可避免的；也或许是因为这次事故的影响范围远不如上次。不管是哪种情况，反对云计算的专家和云计算行业的竞争者都不失时机地以这次的失败为由强调为什么公共云是最不靠谱的概念。

害怕，犹豫，怀疑的心态都于事无补

正如我之前说过的，对于影响重大的事件人们的反应总是很疯狂这一点，我依然相当惊讶。私有云外包商Piston Computing发表的一篇博客引起了我的主意。文中Piston的合伙人Gretchen Curtis 表示上次AWS 事故证明自己运行云服务比租用要好。尽管很多情况下购买云服务可能确实比自己开发要好，我还是不得不说事物总是有两面性的，我认为那些落后保守的群体以自身利益为中心（Piston卖数据中心的科技，而亚马逊是租用的），只是站在自己的立场思考问题，最后对谁都没有好处。

在此我不再逐条列出Curtis 客观的观点因为对于他的大部分观点我是认同的，至少是在为Piston 实施开架系统提供了温室的当今大型企业氛围下我是同意的。但是其他的评论和观点我不能苟同，而且AWS 事故不支持Curtis 的观点也使我感到苦恼。她的观点很给力，指出了问题的实质，不过与AWS是的事故没有大的关系。

所有的数据中心，无论是部署在企业系统内部还是在移动云中，都需要灾难备份

上一次的AWS失败虽然非常严重然，但还是可以在企业内部系统的数据中心的核心基础设施基础上进行灾难恢复的，这样的事我见过无数次了。如果你运行一个承载着关键任务、不能中断运行的基础设备，那么在另外一个地方准备一台设备，以防事故的发生，也就是在另外的大楼或地点组建一个备份的数据中心是有必要的。如果对于你来说备份设施是一种冗余，那么发生事故造成损失要低于组建备份避免系统中断的危险需要的投资。

对于公共云来说也是如此。任何现代的IT系统，不管是什么样的、由谁来运行，都有可能而且最终是失败的。公共云基础设施和企业内部的数据中心同样会失败。当今我们所用的技术太过复杂，有失败在所难免。

很多人包括公共云服务的支持者和反对者，都没有意识到的是利用云计算技术任何人都不可能免于做灾难备份并采取措施使保证设备的高可用性，以防事故的发生，或者服务中断。

企业系统内的或者私有云基础设施，都需要部署备份的核心硬件设备，并运行相应的测试系统，以此来保证服务的连续性。使用云服务，你也许无需担心硬件，但你需要把自己的工作分为若干份，分别在一个云服务提供商的数个区域内进行，或者使用数个云服务提供商的资源。尽管在执行过程中与企业系统内部设备少有雷同，但是从概念上来讲并没有什么不同。

事物的本质所在：找到正确的工具，从经验中吸取教训。

然而正确的决策是，为所做的工作选择正确的工具。正如一个螺丝刀不会对所有的螺丝都适用，公共云，私有云，传统的企业内部基础设备，或者是三者的混合体，总有一个是适合你的。做出正确选择的关键，是了解每一种方法的利和弊，然后使他们满足你的需求。

但并不意味着我不欣赏人们针对已发生的事故，热烈讨论为什么发生，将来怎么避免。尽管公共云提供商还没积极地讨论相关的细节，我们至少意识到了事故发生的一般原因，知道了人们所采取的补救措施。

仅仅是因为没有人意识到上数以千计的系统可能会失败而去采取防范措施，导致影响重大的企业系统内部数据中心发生事故，这样的失败事件到底有多少未经报道？公共云运营商是没有这种远见的，因为每个人都看到了他们的失败；如果他们够聪明，就会从中吸取教训。