阿里云官方通告华北区域出现宕机,将根据SLA协议协调赔偿

2019-03-04 12:00:14来源:众视媒体 作者:张樑热度:
阿里云又出事了!北京时间2019年3月3日凌晨,阿里云华北2地域可用区C部分ECS服务器等实例出现IO HANG,之后经紧急排查处理后已全部恢复。

其实这已经不是阿里云第一次出现问题和故障了,早在2018年6月28日,阿里云就因故障导致用户在访问阿里云官网控制台和使用部分产品功能出现问题。
 

之后阿里云方面称:“故障从北京时间27日16:21左右开始,到16:50开始陆续恢复。故障起因是上线一个自动化运维新功能时,执行了一项变更验证操作,触发了一个未知代码bug,错误代码禁用了部分内部IP,导致部分产品访问链路不通。”
 

2018十大云计算厂商宕机事件回顾
 

其实近几年云宕机事件发生也是很频繁的,据众视媒体获悉,仅2018年一年,全球主流云计算厂商曾发生数十起宕机事故。
 

例如:2018年1月18日,谷歌云自动化机制失效,导致其us-central1和europe-west3 两大可用区中的计算引擎停运93分钟。谷歌对此的回应是“网络编程失效”导致Autoscaler(自动扩展器)服务无法正常运行,该服务失效意味着新的虚拟机或刚迁移的虚拟机无法与其他可用区虚拟机联系。
 

2018年3月2日凌晨,依赖 AWS 服务的部分 Alexa 开始出现失声问题,该智能音箱的红色指示灯不停闪烁表明服务出现中断,Alexa也一直发出系统内置道歉声。随后几小时内,Alexa 又接到了成千上万封投诉。据了解,Alexa这一故障源于亚马逊AWS的网络服务出现问题,其他依赖 AWS 作为骨干网的应用在当天也受到了影响,包括软件开发公司 Atlassian,云通讯公司Twilio等。
 

2018年5月31日,因北弗吉尼亚地区的数据中心出现硬件故障,AWS再次出现连接问题。在此事故中,AWS的核心EC2服务,Workspaces虚拟桌面服务以及Redshift数据仓库服务均受到影响。
 

2018年6月17日至18日,因爱尔兰数据中心的恒温系统出现问题,微软Azure被高温影响导致存储和网络中断。
 

2018年7月20日,腾讯云云硬盘发生故障(腾讯云后期给出的事故原因说明),导致该公司存放的数据全部丢失,并且不能恢复,这是该创业公司近千万元级的平台数据,包括经过长期推广导流积累起来的精准注册用户以及内容数据。
 

2018年7月24日,用户登录腾讯云时反复出现超时、退出等情况,即便更换运营商,结果也一样。随后,腾讯云发布通知称初步确定是运营商光缆中断,运营商已经找到断点,正在连线中,主要受影响的为广州区域部分用户。
 

2018年9月4日上午,微软Azure美国中南区数据中心附近发生雷击在内的恶劣天气,影响冷却系统的电压,导致多个Azure服务出现连接问题,客户难以访问存储在该区数据中心的资源。受影响的服务包括Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。
 

2018年11月9日,谷歌公有云上提供的Kubernetes服务(GKE)节点池建置功能出现异常,维运人员无法透过Cloud Console UI建立新节点。
 

如何有效降低云宕机事件发生
 

云计算并不是天生就是不可靠的,但是如同所有的IT形式一样,必须仔细挑选和管理云服务以实现特定的可靠性和可用性目标。
 

而想要免受云宕机事件影响的第一步就是要评估云厂商数据中心的可靠性,因为大部分的云厂商都拥有着很少数量的数据中心,通常情况下只有一个,而这些数据中心易于产生与企业相同类型的故障。
 

其次,备份数据中心必须位于不同于主数据中心的另一区域,这样它就不会受到相同问题的影响,同时它还必须拥有足够的容量以处理云应用的故障转移。
 

最后,网络性能问题或缺少也将导致云宕机事件得发生,云计算故障的最常见原因通常并不是云计算,而是网络。大部分的云应用都是通过互联网进行访问的,而互联网可用性则是大多数云宕机事件的罪魁祸首。
 

阿里云的全球地位依然牢固
 

虽然此次的宕机事件或多或少会对阿里云的带来一些负面影响,但是想要动摇阿里云在国内的地位却很难。目前在全球市场上,阿里云已拥有超过1500个节点,带宽总量超过120T,服务超过30万客户。全国互联网三分之一的流量由阿里云承担,近70%内容通过阿里云完成加速调度,80%的国内TOP直播网站/APP使用阿里云加速。在权威市场研究机构Gartner公布的最新视频云报告中,阿里云被评定为"全球级"。
 

而据最新的研究报告显示,阿里云以42.5%的市场份额,成为中国视频云市场第一大厂商,所占份额几乎为二至五名总和,阿里云视频云凭借绝对领先的市场份额和完整的产品线位居市场竞争力领导者的位置。
 

同时,在刚刚结束的MWC 2019上,阿里云发布了7款产品,涵盖无服务器计算、高性能存储、全球网络、企业级数据库、大数据计算等。
 

阿里云方面介绍,本次发布的产品包含:可实现每秒17亿次计算能力的实时计算引擎Blink,EB级数据存储能力的大数据计算引擎,业界首款企业级MariaDB云数据库以及为国际企业定制的全球网络连接解决方案。产品均已大规模应用于阿里巴巴集团内部淘宝、天猫、菜鸟等核心业务场景。

责任编辑:张樑