據網友爆料,3 月 2 日 23:55 分左右,阿里云疑似出現大規模故障情況,華北相當多互聯網公司都炸了,一眾 APP 和網站陷入癱瘓,一大波程序員、運營和運維人員都趕去公司加班。晚些時候,阿里云對此作出回應稱:華北 2 地域可用區 C 部分 ECS 實例狀態異常,導致該區域眾多網站和 APP 都無法正常使用,不少公司就此事在微博刊登出回應公告:
阿里云方面暫無確切故障原因并尚未給出具體受影響范圍,其工程師正在進行緊急排查處理,并表示如果有進展會及時向用戶同步:
對此,不少程序員在微博吐槽,一時之間該話題之下哀鴻遍野。有網友懷疑是部分磁盤出現問題,凡是讀寫故障盤的系統軟件或服務程序均會受到影響。
對于此事,某公司市場總監在微博表示,一直以為阿里云是公有云穩定的代名詞,但出現這種事件讓沒有配套私服的中小公司措手不及,如果有完善的備用方案,不至于出現大規模宕機。
截止發稿時,阿里云方面回應稱:服務器等出現 IO HANG,正在處理并將對受影響的客戶進行賠償。
據了解,這不是阿里云第一次出現宕機事故。
2018 年 6 月 27 日 16:21 左右,阿里云也曾出現重大技術故障,16:50 分開始陸續恢復,官方給出的故障時間為 30 分鐘左右,恢復時間大概花費一小時。經過技術復盤,阿里給出的故障原因為工程師團隊上線自動化運維新功能時,執行了一項變更驗證操作,該操作在測試環境中未發生問題,上線后觸發未知 bug。
本次事故被定義為 S1 級別,即核心業務重要功能不可用,影響部分用戶,造成一定損失。阿里云發布官方聲明,表示“對于這次故障,沒有借口,我們不能也不該出現這樣的失誤!我們將認真復盤改進自動化運維技術和發布驗證流程,敬畏每一行代碼,敬畏每一份托付。”
根據筆者統計,僅去年一年,全球主流云計算廠商就曾發生數十起宕機事故,原因更是五花八門,谷歌云曾因自動化失效導致宕機、AWS 曾因數據中心出現硬件問題導致宕機、微軟 Azure
愛爾蘭數據中心曾因高溫和打雷陷入宕機、騰訊云因運營和硬盤故障陷入宕機…
眾多安全事故頻發,云廠商承諾的 99.99% 的安全可靠性是如何定義的?
不久前,筆者曾就云服務的可靠性一事詢問阿里云相關技術專家的看法,他表示,云計算廠商得出 99.99% 可靠性這一數字是經過驗證的,通過客戶部署反饋,確實故障率在 0.01% 以下。并且,一旦出現故障,云廠商也都有非常完善的容災方案,目前主流云廠商已經在提供一定程度上的異構災備能力,比如,阿里云的 3AZ 容災方案,同城一定距離的地方,用戶可以自己搭建跨 DC 方案,技術上能夠滿足異構容災需求。如果客戶追求極致容災能力,有可能建設混合云或者采購多家云廠商,架構會帶來很大成本壓力,但這種選擇應該比較少,就好比對安全可靠性要求極高的金融數據庫領域,也很少有客戶同時選擇兩種數據庫方案。
隨著云計算使用量的持續增長,很多企業紛紛開始選擇放棄一些控制權,以降低成本。從業界來看,美國大多數互聯網企業已經放棄自建數據中心而大規模應用云技術,例如 NetFlix 大規模應用谷歌云服務,專注于專有云和 IaaS 的 Cloudera 和 Hortonworks 合并過冬。
單一云平臺被企業大規模應用同時,這也意味著一旦出現問題,給企業帶來的損失和影響是巨大的,多云再次成為重要討論話題。
根據 Gartner 調查,2018 年全球公有云市場整體增長為 21.4%,以亞馬遜 AWS、微軟 Azure 和阿里云為首的全球云計算“3A”陣營占據超七成市場份額。根據 IDC 數據,在中國市場上,阿里云市場份額相當于第 2 到 9 名的總和。在全球市場,阿里云已超過 Google 和 IBM 的云業務。
據統計,目前 40% 的中國 500 強企業、近一半中國上市公司、80% 中國科技類公司在使用阿里云,其數據中心也在全球范圍內增長。可見,國內企業對阿里云的依賴程度有多高,這也讓單一云平臺的綁定問題受到用戶關注。
中國平安運維部負責人曾在接受采訪時表示,很多大企業如今都會分散選擇云服務商。一般情況下,小型企業受限于資金或人員等因素,可能會將所有服務放在同一云計算平臺,但大多數中型企業還是傾向于選擇多個廠商。
負責運營的微軟 Windows Azure 與 Office 365 公有云服務成功在華落地的中國電信中立的第三方互聯網基礎設施服務商世紀互聯藍云首席執行官柯文達曾在近期的采訪中表示,真正的企業級市場中,用戶一定是希望多云,這其中就涉及跨云管理的問題。當企業跨多云運營時,每個地方所需要留的 buffer 就越多,浪費就越多。現在,跨云管理其實是一個熱門話題,尤其是中大型企業,當應用分散在很多地方時,控管平臺可以很好得提高資源利用率和成本效益。
根據阿里云方面的描述,未來的云計算服務將越來越趨向于標準化,企業可以輕松得在不同平臺之間進行數據或者應用遷移,多云管理的門檻將被大大降低。
隨著國內云計算領域的逐漸成熟,多云或許會是未來主要的發展趨勢,這一點從國外目前的云計算發展變化中便可窺得一二。根據分析公司 Kentik 發布的一份云相關調查報告,目前企業更傾向于同時部署兩大云服務,也就是多云配對,多云正在快速發展,可能會逐漸超過混合云部署。國外,目前最常見的云組合是 AWS 和 Azure,但也有客戶選擇 Google Cloud Platform。根據 Kentik 的調查,97%的受訪者表示所在公司使用 AWS,35%的受訪者表示也在積極使用 Azure,24% 的受訪者同時使用 AWS 和 Google Cloud Platform。