在云界流传着一句话:
“运行不稳定,宕机两行泪!”
这不,今天凌晨因为阿里云宕机,不少华北互联网公司的程序员、运维人员接到报警后从被窝爬起活去了。
58一程序员如此描述今早的惊魂几小时:“很多朋友经历了昨晚阿里云3小时左右的故障,我司的业务也收到了一定影响,技术的同事一起熬夜奋战,最终观察服务稳定运行了两个多小时,直到凌晨五六点多才逐渐登出VPN。”1
对此,阿里云发布公告:华北2地域可用区C部分ECS等实例出现IO HANG。针对本次故障,将根据SLA协议,尽快处理赔偿事宜。
这已经不是阿里云第一次出事故了:10天前,阿里云泄露 40 家名企源代码;去年6月份,阿里云官网的部分管控功能,及 NAS、OSS 等产品的部分功能出现访问异常。
为何阿里云宕机影响巨大?
在CSDN的2018-2019者大调查报告显示,在国内公有云市场中,阿里云的市场占额最大,高达67%,远超第2至5名的总和。
据阿里云文档显示:“中国有40%的网站都运行在阿里云上,一半独角兽公司都在阿里云。”
所以说,阿里云轻微一抖动,影响中国近半数的互联网网站啊!
云
虽然阿里云承诺会赔偿,可阿里云故障频出,不仅让众多IT人忙得人仰马翻,还让网友略微心寒啊:
这不仅仅是一个赔偿的问题,对于客户来说访问不了或造成高于赔偿多少倍的有形无形损失,技术方面仍然需要过硬啊!
把业务部署在平台上,要的就是安全、稳定和可靠,不是赔偿的事儿。
甚至有人想更换一个云商,但无论是公司自搭建平台或者各家云商,从没有说自己的产品是100%安全的。
阿里云的文档清楚地写道:“对于单实例维度,阿里云承诺一个服务周期内ECS的服务可用性不低于99.95%;对于单地域多可用区维度,阿里云承诺一个服务周期内ECS的服务可用性不低于99.99%”
那么作为程序员,我们在设计架构时,的容灾性必须要考虑完整:“
在每一层都假设依赖的服务出故障时该怎么应对,要么冗余,要么降级,一定要考虑,不能把生命完全交给别人控制。避免单点故障,采用多台云的时候还要考虑不同可用区,否则单个可用区也可能彻底挂掉。”2
参考资料:
1架构师之路这一次,除了骂阿里云,还能做些什么?
2阿里云社区《IT之家,这不是个案》
本文相关词条概念解析:
赔偿
赔偿是一个汉语词汇,拼音是péicháng,指对损失、损坏或伤害的补偿;对受害的一方补偿或赔款。语出《元典章·户部二·分例》。
故障
故障(Failure,fault),设备在工作过程中,因某种原因“丧失规定功能”或危害安全的现象。失效有时也被称为一种故障,也可能是设备工作中丢失也是一种故障,但这些故障却是可修复的。规定功能是指在设备的技术文件中明确规定的功能。徐迟《入峡记》:“又一次,调速器出了故障,机匠在黑板上写了‘调速器跳舞’五个字。孙犁《秀露集·耕堂读书记(二)》:“但究竟发生了什么故障,他从不具体说明。
来源:网络