十大云宕机事件敲响警钟

来源 :计算机世界 | 被引量 : 0次 | 上传用户:wuhaoxin1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  经过几年的培育,云计算已经广受用户喜爱。借助云计算,用户可以丢开笨重的服务器,在网络天空里自由驰骋,甚至“云”本身这个名词就给人一种躺在蓬松的云朵上的奇幻感觉。
  
  但现实总是复杂的。摆脱了保管数据的麻烦,自然也丧失了对数据的控制权,随之而来的自然是未知的安全隐患。事实上,没有什么比云服务宕机时更可怕的了。
  今年4月,亚马逊服务器遭受了重大停机故障,直接影响到了大量使用亚马逊云服务的厂商,这让在这次事故前一个星期才刚刚注册使用亚马逊服务的Help Scout负责人Nick Francis心惊肉跳。“我们毫无准备,完全震惊了。”
  “云计算正在被美化为一件神奇而又可靠的事物。”同样提供云服务的Rackspace公司首席战略官Lew Moorman指出,宕机是不可避免的,要确保自己不被这些错误影响,就要事先做好准备。
  本期《云世界》专栏,我们特别介绍IT发展史上的十大云宕机事件,希望这十大事件引发的惨痛教训,能使读者从中吸取经验,更谨慎地对待云计算。
  
  亚马逊云服务瘫痪
  
  今年4月,亚马逊公司在美国北弗吉尼亚州的云计算中心出现故障——在一次网络升级中,当备份信息在寻找可嵌入的设备时,一个误转的通信位移传送了一连串弹性持久存储(EBS)的文件集,从而演化成一次重镜像风暴。反常的一系列错误导致亚马逊云服务瘫痪,美国东部多数公司因此受到严重影响。这次故障持续了整整4天,让很多使用亚马逊云服务的公司苦苦挣扎。
  但同时,以Netflix为代表的部分企业却对此事件应对自如。这些企业幸存的关键在于,它们在已有失败的经验上重新设计了系统。“我们的设计师拒绝使用EBS作为主要的数据存储服务器,主要依赖SimpleDB、S3和Cassandra的服务器,因此没有受到宕机的影响。”Netflix的工程师表示。
  
  Sidekick手机关机事件
  
  智能手机能让用户在旅途中轻松获得信息,但其名称中的“智能”两字并不能保证它就不会犯傻。在2009年秋季,T-Mobile的Sidekick手机就搞砸过一次。当时,微软旗下的Sidekick手机遭受了将近一周的服务中断,导致用户无法访问电子邮件、日历信息和其他个人数据。更加雪上加霜的是,微软承认它已完全丢失了存储在云端的数据,也无法进行恢复。这次事故让用户的数据遭受了严重的损失。
  
  Gmail的失误
  
  所有云服务中,Google Gmail最有可能威胁到微软的行业地位,但Gmail也不是绝对靠谱的。最近,当15万个Gmail用户登录到Gmail账户时,呈现在他们面前的是一片空白——没有电子邮件、没有文件夹,用户们完全看不出来是在查收自己的收件箱。在事故发生后,Google承诺将迅速修复漏洞,但结果是,一些受影响用户的账户恢复时间长达4天。
  事实上,Google在多个数据中心保存有用户数据副本,这事怎么可能发生?对于这个问题,Google的工程副总裁Ben Treynor在博客中解释道:“在一些罕见的情况下,软件错误可以影响数据的多个副本,而这次事故就是源于软件错误。”
  
  Hotmail的大麻烦
  
  在Google之外,微软也没有为推广云计算做出很好的表率。在2010年底和2011年初,由于Hotmail服务数据库错误,数以万计的Hotmail用户也遭遇了“空收件箱”问题。
  根据微软的解释,这次Hotmail错误源于一个脚本错误,它原本是用来删除为自动化测试创建的虚拟账户,却错误地针对了1.7万个真实账户。最终,微软花了3天时间来还原大多数用户的服务,另外有8%的受害用户还多等了3天才拿回自己的数据。
  
  Intuit两次中断
  
  Intuit去年很不走运:在短短一个月内,其基于云的服务接连宕机了两次,包括TurboTax、Quicken和QuickBooks等大受欢迎的平台。最糟糕的情况是,6月份Intuit宕机了整整36个小时。问题的起因是,电源故障导致该公司的主系统和备用系统从电网完全断开。
  屋漏偏逢连夜雨,几个星期后Intuit遭遇了另一次明显的电源故障。除了带来相关问题外,第二次宕机还引起众多用户在网上大爆粗口。一个用户在Twitter上发了这样的消息:“宕机25个小时让人很难接受。Intuit的一套被动的、缺乏透明的、死板的沟通方法无济于事。”
  “事实上,如果你需要绝对的稳定性和安全性,有比单独采用云计算更好的解决方案。”惠普安全优势项目首席策略师Chris Whitener表示,“这不是说要复制一切,只需要多做一步——自己备份重要数据,这可以省去很多麻烦。”
  
  微软的BPOS危机
  
  如果基于云的生产力套件无法使用,工作效率就很难有保障。两个月前,依赖微软商业云服务解决方案的公司企业就遭到了这种情况:微软商业生产力在线标准套件(Business Productivity Online Standard Suite,简称BPOS)服务在5月10日前后开始停顿。结果,付费客户的电子邮件被延迟了长达9个小时才发送。
  两天后,就在BPOS故障看似已经修复时,邮件延迟发送的毛病又来了,发出去的邮件开始堆积如山。接下来,更糟糕的事情又发生了:用户开始无法登录到微软基于互联网的Outlook门户网站。
  
  Salesforce服务中断
  
  一个小时的断网故障听起来或许并不严重。但是,如果你的公司掌握着数万家企业客户服务业务的命脉,这60分钟对于不少企业相当于一个生命周期。
  当Salesforce.com的数据中心在去年1月宕机时,它对此可是深有体会。新年过后4天,Salesforce.com就宣布遇到了彻底的故障——这意味着服务、备份和其他一切都完蛋了。
  令人抓狂?绝对如此。令人惊讶?不完全是。柯尼卡美能达公司旗下All Covered部门的首席信息官Tim Crawford表示:“现实情况是,基于云的数据中心同样会停止运行。过去一向如此,将来也是如此。我们一定要从现实的角度看待这个问题。”
  
  Terremark的悲剧
  
  最近,云服务提供商Terremark与Verizon之间的10亿美元的交易成为了重要新闻。但在2010年初,人们关注的主要是Terremark断网事故。
  2010年3月17日,这一天也是西方的重大节日圣帕特里克节,Terremark的厄运来了。该公司的vCloud Express服务在那一天急转直下,位于迈阿密的数据中心断网了大约7个小时。在这段时间里,用户无法访问存储在这个数据中心的数据。
  尽管业界都认同不要过于追求冗余,但这起事件还是表明了冗余机制的重要性——要将企业的关键数据放在不同数据中心的多台服务器上;或者更安全的做法是,放在不同地区的多台服务器上。
  
  PayPal停滞故障
  
  想要看看引起广泛严重影响的云断网故障吗?设法让PayPal断网几个小时就可以。
  这不是假设的演习: PayPal在2009年夏季真的宕机了,导致全球数百万商户无法销售商品。PayPal服务在大约一个小时内完全崩溃,在后来的几个小时里依旧是断断续续。PayPal称,这次事故的起因是硬件故障。
  
  Rackspace遭遇坎坷年
  
  如果你为像美国科技博客TechCrunch和流行音乐天王Justin Timberlake这样的知名网站和网络红人提供云服务,最好还是相信这一点:一旦你的服务器停止运行,人们肯定会注意到。
  Rackspace在2009年数次汲取了这个教训。这家云服务提供商在那一年先后遭到了4次重大的服务故障,导致其众多客户出现长达数小时的停机。每次故障就足以让Rackspace不得不向用户支付相当于近300万美元的服务折扣。
  小贴示
  技术可以改进,教训也不能忘记。用户必须清醒地意识到,对于关键数据,千万不要以为别人会自发保护它们。在选用云供应商时,一定要了解它们的灾难恢复解决方案。而最万无一失的,当然是自己独立备份重要数据。
  你可以选择一系列提供商来托管工作负载——某一两家提供商充当后备提供商,另一家提供商充当主提供商。然后,你以一种安全的方式将工作负载部署到那里,确保合适的安全机制,随后开始添加你的弹性功能。
其他文献
本报综合消息 Gartner于上周三发表报告称,未来5年内大企业将不会大量采购触控屏PC。  Gartner预测,到2015年,在企业采购的PC中,不到10%的PC将配置触控屏。触控屏PC在企业普及缓慢的原因在于企业业务需要输入大量文字,而员工已经习惯通过鼠标和键盘高效地输入文字。  调查显示,触控屏主要受到年轻用户的青睐,到2015年,15岁以下年龄段的儿童购买的PC将有一半以上配置触摸屏,而该
优化基础设施,最大化资产效益,控制成本和风险,一直是城市、公共服务管理者和企业等共同关注的命题。IBM Tivoli软件集团在今年的服务管理大会上提出了以整合服务管理应对上述挑战的新判断和新路径。    2月21—24日,正值中国农历新年正月期间。美国赌城拉斯维加斯各大酒店破天荒地张灯结彩迎财神,一派浓郁的春节气氛。IBM Tivoli软件大会——Pulse 2010按照上届大会结束时IBM Ti
“股价涨和跌不是我们关心的,这是刚刚开始,所有伟大的公司,大家都不会记得它们开局的股票如何,更重要的是把工作做好。” 土豆网CEO王微用“淡定”来描述他的心情。  然而,土豆网在纳斯达克的开盘表现却不“淡定”。  8月17日,土豆网上市首日开盘即破发,较发行价29美元下跌13.4%,盘中最低跌至23.55美元,随后小幅回涨,最终收报于25.56美元,该股当日最高股价为27.75美元。  业界将此逆
随着中国信息化的深入和中国IT市场在全球的地位日益重要,国际各大IT公司越来越重视中国用户的需求以及相应的产品研发。日前,在EMC中国卓越研发集团成立5周年之际,EMC在中国又有了新举措——在原EMC中国实验室和EMC首席技术官办公室技术创投组的基础上,组建EMC中国研究院,隶属EMC中国卓越研发集团,主要从事新技术的基础性研究、产品原型开发与孵化,并开展高校合作及标准化组织工作。  EMC中国卓
近日,继“天龙X”之后,海尔电脑再次推出了一款命名为“天龙E”的天龙系列商用电脑产品。这款产品将主机和显示器合二为一,采用标准台式电脑平台,整机通过MTBF 15万小时无故障运行测试,可靠性超越行业标准;加大加粗三铜管大涡轮散热结构、上下对流超强散热设计,确保系统各部件稳定运行;内置的省时省心“一键通”软件,包含一键上网、一键杀毒、一键恢复、一键优化四大功能。在保证系统绝对安全的同时,“天龙E”还
7月14日,主题为“‘芯’视野,未来”的2011华硕台式电脑策略暨产品发布会在北京举行,华硕电脑正式发布了主旨为“细分市场,全线布局”的全新市场策略。同时,在本次发布会上,包括最新推出的三联屏电脑、图形工作站、一体机、EBOX在内的华硕台式电脑全线产品集体亮相,标志着华硕台式电脑正式进入整合型产品线时代。  随着计算机技术的推陈出新和用户需求的不断细化,电脑的定义已发生巨大改变。对于台式电脑行业而
AMD近期好事不断,在“Tigris”平台获得《计算机世界》报年度产品奖后又和联想推出了采用这一平台的G455A笔记本电脑,这个“重磅炸弹”将通过联想淘宝网旗舰店进行首发。  联想G455A是AMD与联想在消费笔记本电脑领域合作首次推出的产品,其搭载的AMD“VISION技术”可使显卡协助CPU工作从而提升整机的性能。G455A采用的ATI HD4550独立显卡支持DirectX 10.1和UVD
据艾瑞咨询的数据显示,2011年第二季度中国网络广告市场规模已经达到110.2亿元,较上一季度增长28.38%,较去年同期增长39.4%。而DCCI(互联网数据中心) 2011中国互联网调查显示,在中国广告市场,预计2012年互联网广告将达461亿元,超越报纸的423.9亿元,成为中国市场上第二大广告媒介。  “易传媒致力于互联网广告,并不断帮助互联网媒体拓展自身的广告主类别。”易传媒CEO闫方军
40G/100G以太网商用标准去年6月发布后,无疑为未来的云联市场提供了一个新的标尺,100G产品逐渐成为网络设备厂商的发力重点。从交换机到路由器,越来越多的100G产品开始进入实际应用。2011年年初,H3C推出了100G平台的新一代核心路由器产品CR16000 系列,仅仅半年时间,就取得了突出的市场表现,受到了运营商、电力、公安等领域用户的重点关注,并在上海电信IDC、湖南电力、湖南广电等网络
普元软件立志做中国最优秀的应用基础软件厂商,这一远大抱负需要大量优秀人才来作支撑。自前BEA全球副总裁沈惠中、前BEA中国公司首席技术发言人程朝晖加盟普元后,曾在惠普工作16年(任副总裁)、在英国电信工作4年(任中国区总经理)的孙逢举也毅然加入普元软件任总裁。  如果说前两位的加入能给普元在中间件业务和技术上带来很大益处,那么孙逢举的加入能给普元带来什么呢?为了解开这个疑问,《计算机世界》报社总编