我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:香港赛马会 > 多故障 >

阿里云故障多家网站瘫痪 宕机教会我们一件事

归档日期:05-20       文本归类:多故障      文章编辑:爱尚语录

  云安全无小事,一旦云服务出现宕机,不仅影响到企业的生存,也会对用户体验造成破坏,业内人士建议,多云部署或可避免危机。

  阿里云宕机这一次发生在午夜。3月2日23时55分左右,阿里云开始出现大规模故障,3月3日凌晨,有不少网友微博上反馈称阿里云疑似出现了宕机故障,博主@ 辣笔小球称,华北相当多的互联网公司都炸了,APP、网站全部瘫痪,一大波程序员和运营、运维专员都从被窝爬起来去公司干活了。

  一些受影响的网站和APP随即发布了故障说明公告,表示页面无法加载、APP卡顿、网站停止访问等都是因阿里云故障导致,有的还贴出了阿里云工程师给出的故障通知截图。

  58高级架构师沈剑在文章中回忆称,这场宕机事故持续了三个小时左右,事后观察了两个小时。

  对此,3月3日早间,阿里云发布公告称,华北2地域可用区C部分ECS服务器等实例出现IO HANG,经紧急排查处理后已全面恢复。目前已经全面排查其他地域及可用区,未发现此类情况。针对本次故障,阿里云将根据SLA协议,尽快处理赔偿事宜。

  据业内相关人士介绍,所谓IO HANG,就是云服务器的磁盘无响应。这意味着输入输出卡住了,无法使用存储功能。

  虽然阿里云承诺尽快处理赔偿事宜,但阿里云并未公开详细的赔偿细节。不过,在阿里云开发者论坛上,曾有网友回复称,赔偿方案通常根据包年包月预付费模式和按量付费模式等有所不同,按每台故障时间的100倍赔偿,赔偿总额不超过支付的单台云服务器费用总额。

  近年来,越来越多的企业放弃自建机房选择“上云”。IDC2018全球CloudView调研的数据显示,81%的受访企业正在或计划使用公有云。

  Gartner数据表明,云计算占全球总IT支出的规模正在不断增加。从2010年的1.99%,上升到2018年的8%,而未来几年向云转移将会直接或间接影响超过1万亿美元的IT支出。

  在我国,国家政策成为我国云计算产业发展的第一剂催化剂。云计算相关支持政策不断出台,2018年7月,工信部出台的《推动企业上云实施指南(2018-2020年)》和《扩大和升级信息消费三年行动计划(2018-2020年)》,明确了2020年全国新增上云企业100万家的目标。

  另据工信部印发的《云计算发展三年行动计划(2017-2019年)》提出,到2019年,我国云计算产业规模达到4300亿元。而数据显示,“十二五”末期,我国云计算产业规模约1500亿元,这意味着,未来几年内,云计算产业将高速发展。

  随着云计算产业规模的不断扩大,资本巨头开始积极布局云计算。初步形成了三大主流竞争阵营,即互联网阵营、IT阵营和电信运营商阵营。

  国内云计算市场上,以阿里云、腾讯云、百度云等为首的互联网公司在提供云服务方面起步最早,占据了先发优势,不过,中国电信等运营商也占据着国内较大的市场份额,此外华为、中兴、浪潮等企业也开始加入布局。

  这其中阿里云占据了中国市场半壁江山。市场研究机构IDC日前公布的2018年上半年中国公有云厂商市场份额数据显示,阿里云占43%,腾讯云占11.2%,中国电信占7.4%,分列前三。

  根据阿里云的官方描述,阿里云在中国公共云市场占有率超过第二名至第五名公司的总和,目前中国有40%的网站都在阿里云上运营,一半独角兽公司也在使用阿里云。

  无疑,阿里云在中国市场叱咤风云,然而成绩越大,责任就越大,尽管多家云服务商仍在承诺99.99%的安全可靠性,但自2009年创立以来,阿里云就已出现多次故障。

  2012年10月30日,由于电力故障阿里云部分服务器30余分钟无法正常访问,事后阿里云为此次受影响的用户统一提供百倍赔偿。

  2013年1月18日,阿里云机房发生临时故障,部分用户服务器无法访问,20分钟修复。

  2013年1月23日,阿里云发生网络系统故障,OSS服务无法正常进行,故障持续长达6小时。

  2014年11月14日,由于市政施工导致运营商光纤受损,阿里云杭州可用区D网络故障,受此影响,当天不少P2P平台网站无法打开。

  2015年6月21日,一些使用阿里云香港数据中心的用户反映,其服务出了问题,服务中止12小时。对此,阿里云公告称因运营商电力问题造成香港机房故障。

  2015年9月1日,多位用户曝出,运行在阿里云上的系统命令及可执行文件被删除,严重影响线上服务及运维。虽然阿里云官方声明称,是由于云盾升级触发bug,导致少量文件被系统误删除,并将立即启动百倍时间赔偿,但9月3日,阿里云云盾负责人吴翰清撰文称,事件原因是“工程师粗心大意写错一行代码”,并向受影响的用户道歉。

  2016年7月6日,阿里云北京机房内网发生故障,导致大量互联网公司业务受到影响。故障持续长达1小时。

  2018年6月27日,阿里云出现大规模访问异常,图片服务等产品无法正常使用,官网账号也无法登陆。阿里云内部人士曾透露,此次故障并非宕机,而是账户登录异常,云服务器不受影响。

  事实上,不仅阿里,几乎一年发生一次故障,仅2018年一年,全球主流云计算厂商曾发生数十起宕机事故。

  2018年5月31日,亚马逊AWS北弗吉尼亚地区数据中心出现硬件问题,宕机30分钟左右;

  2018年6月17日,微软Azure爱尔兰数据中心宕机,宕机时间5小时以上;

  2018年7月16日,亚马逊进行“Prime Day”会员促销活动之际,网站发生约一小时故障;2018年7月20日,腾讯云云硬盘故障,宕机半小时左右,导致创业公司数据完全丢失;

  2018年9月4日,微软云 Azure数据中心因高温和打雷宕机,宕机时间超过24小时;

  2018年11月9日,谷歌公有云下的Kubernetes服务(GKE)宕机,宕机时间接近19小时。

  云服务宕机时间过长,会给企业级用户造成巨大损失,此外更影响着千万亿万普通用户的网络体验,可以说每次云厂商出现故障(即使是很小的故障)也会在网络上引起轩然大波。

  企业上云已成趋势,不可否认的是,受多种条件的限制,当前对数据存储而言没有彻底安全的方式。即便是云服务提供商提供了100% SLA保障,故障还是会发生,根据Veritas发布的《云中的线%的全球受访企业(中国:70%)认为,处理云服务中断是云服务提供商的首要责任。

  在云信达创始人张兵看来,不管是阿里云还是腾讯云,云厂商频繁发生宕机,数据丢失的事件,从根本上来说是云灾备、数据管理意识普遍不强,没有很健全的灾备建设。“过去像电信这种数据中心,都是有几十年的沉淀,而现在基于云的数据中心普遍建立年份短,技术和意识积淀不深,进而整个数据管理体系不完善。

  如何避免宕机事故造成重大损失?有业内人士称,需要将重要业务分别放在不同的“篮子”里,也就是选择多个供应商,进行“多云”部署。

  根据451 Research的研究报告显示,69%的受访企业(788家企业参与调研)选择了多云部署来支撑业务的增长,其中36%的企业选择了3种以上的云计算服务。

  网络调研公司Kentik的一份调研报告也显示,AWS和Azure虽然是激烈的竞争对手,但两家云服务商经常同时出现在企业用户中。根据IDC预测,2020年时,将有90%的企业使用多种云服务和平台,这也进一步表明多云策略已成为企业上云共识。

  在多云部署中,来自运营商的云服务成为一股不可忽视的力量。以中国电信天翼云为例,天翼云的“云网融合、安全可信、专享定制”三大特性为其铸造了坚实后盾。

  在云网融合方面,各大互联网厂商更多强调的是云,而非网络,但智能时代的一个先决条件就是网络,网络成为天翼云的专属优势。天翼云目前已经具备了“2+31”的云网基础格局,是国内第一家实现“一省一池”的云服务商;同时天翼云还可实现访问时延不超过20ms、省内入云专线Gbps的大带宽定制服务,真正做到网随云动、入云便捷和云间畅达。中国电信天翼云总经理胡志强指出,5G和光宽带网的进一步建设,将会让云和网络的一揽子服务优势更加明显。

  在安全领域,作为云计算公司中少见的“央企队”,天翼云提出了“5S”安全保障体系,从系统、持久、标准、保密和服务五方面为客户提供安全可信的全方位服务。在历年来可信云认证单次/累计通过数量业内第一,12个资源池通过5星+最高级别认证,遥遥领先业界。

  在专享定制上,天翼云可为不同客户以及同一客户的不同部门提供专享定制。据了解,天翼云3.0为政企客户提供全流程定制化服务,用户可以根据需求灵活选择包括公有云、专享云、混合云和私有云在内的各种云服务模式。

  未来将是多云部署世界,博采互联网公司、IT厂商、运营商云服务众长,不失为企业上云上佳选择。

本文链接:http://wsfcsmagnets.net/duoguzhang/454.html