一個更完美的云
云計算中正發生著一個矛盾的動態現象,隨著中斷事故已不那么普遍了,但其帶來的影響卻比以往更廣泛,破壞性也越強。不可否認的是,正常運行時間逐漸增加,而且仍將會繼續這樣做下去,云計算越發成熟,供應商也獲得更多運營經驗。
這是朝著更高可靠性而穩定得發展,也帶給企業、政府及學術機構更多信心,將關鍵性任務工作負載逐步全面地遷移到云中。這也就是為什么,下面這些中斷事故并沒有像前幾年該列表中發生的那么具有災難性,但他們創造了更多的問題,有時停止整個政府機構的運作,有時關閉了高科技業務的高頻交易。
沒有哪家供應商是完美的,但那些承載世界大部分工作量的供應商是受到關注的,這也就是為什么像AWS、微軟、谷歌和蘋果這些科技巨頭顯得如此突出了。
Verizon云,1月10日和11日
雖然云服務提供商最擔心的就是長時間停機,但Verizon 通信公司通過安排其云下線進行脫機40小時完成全面的系統維護項目還是驚呆了客戶。
其中一個原因是云基礎設施的升級,具有諷刺意味的,這一舉措是為了防止未來更長時間的停機。
雖然許多客戶都氣惱自己的供應商故意減少他們的云服務,一些人還是以Verizon花費40小時添加了無縫升級能力來安慰自己,這將使未來的升級能夠在線實現,而無需中斷執行甚至需要重新啟動服務器去執行。
Google Compute Engine 2月18日和19日
谷歌多區域的IaaS產品在午夜前宕機了。在停機的一個小時后恢復啟動,服務最受影響的客戶到第二天凌晨一點才恢復。
雖然一些連接問題持續了近三個小時,而在此期間約有40分鐘的時間段,本該由谷歌計算引擎虛擬機發出的數據包在空中就結束了傳送。
谷歌對此回應道,此問題是“不可接受的”,并向受影響的客戶道歉。
大約在三個星期后又發生類似事件,另一個網絡錯誤擊倒了谷歌的IaaS云計算,導致通信故障。造成一些用戶失去了長達45分鐘的服務響應。
Apple iCloud 3月11日
在將近12小時內,世界各地數以百萬計的用戶無法購買電子音樂、書籍或應用。值得慶幸的是,他們中的大多數仍舊是蘋果用戶。
蘋果公司在其道歉中表示,因其內部DNS的錯誤導致它的iTunes和App Store的服務宕機,一些iCloud的電子郵件帳戶也受到短暫影響。
Microsoft Azure 3月16日
兩個微軟的Azure公有云服務宕機,導致位于美國中部地區的用戶忍受兩個小時的停機影響,微軟將其歸結為“網絡基礎設施問題。”
微軟在其Azure產品網頁上發布了客戶報告,表示此次癱瘓事件開始于美國中央時區的下午1點,影響的客戶范圍涉及到微軟Azure虛擬機(基礎設施即服務)和Azure云服務(平臺即服務)產品。
微軟將該問題描述為“部分服務中斷”,并表示該服務已于中央標準時間3點19分全面恢復。
Microsoft Azure 3月17日
微軟公有云服務還沒正常恢復運行24小時,第二次宕機事件就發生了,對虛擬機、網站和其他云服務都來了數天的影響,這次主要影響了美國東海岸更密集的客戶群體。
微軟在Azure狀態頁面上報告,這次故障從東部夏季時間下午1點30分開始。作為世界上第二大公有云服務提供商向全世界的客戶表示,服務中斷的根本原因在于存儲系統的問題。
Apple iCloud 5月20日
包括電子郵箱在內的11項蘋果服務,都遭受了長達7小時的宕機。有些是完全不能使用,有些只是運作起來很慢。
中斷的服務包括iCloud的驅動器、照片、文檔、查找我的iPhone、返回到我的Mac、iCloud的備份、iCloud的鑰匙串、iCloud的郵件、iMovie劇場和iWork的icloud測試版。
根據蘋果系統的網頁顯示,全球5億的iCloud用戶中有40%的人受到了影響。
Amazon Web Services 8月10日
Amazon Web Services(亞馬遜網絡服務)是世界上最大的公共云服務提供商,在8月10日凌晨遭遇了罕見的宕機故障,使很多熱門網站都受到影響。
這次事故的根源是AWS在弗吉尼亞州北部的數據中心, AWS在產品網站上列舉了一系列的錯誤。
亞馬遜報告中表示,在太平洋夏令時12點08分到3點04分的時間段內,它的Elastic Compute Cloud (彈性云計算)、EC2都增加了錯誤率,(簡單存儲服務),例如S3“提升了錯誤數量”。
合作伙伴在帳戶和Twitter上表示,這兩個AWS主力服務的客戶在這段時間內陷入了困境。
Google Compute Engine 8月13日-8月17日
星期四上午在比利時,雷電暴風般的襲擊了接近圣吉斯蘭鎮中心的谷歌超節能數據中心的電力網。
這些連續的電擊,掀起了一系列的技術事故和失敗任務,最終導致一些I / O錯誤。
據谷歌表示,只有一小部分用于Google Compute Engine實例上的持久磁盤的數據丟失了。幾乎數據的每一個比特都被最終恢復和修復了,但是數據中心都應該將服務器和客戶資料遠離高電壓沖擊,例如這次因為雷電引起的事故。
在這種情況下,沒有為高效能源建筑配備足夠的防止自然災害的設備顯然是受到譴責的。
Google Compute Engine 11月23日
谷歌的網絡工程師試圖激活歐洲運營商的一個外鏈,但是對方網絡處于處理路由一個令人驚訝的高流量,但事實并非如此。
網絡迅速飽和,連接網絡的大部分數據包進入東歐和中東地區的數據中心,以免受來自西歐數據中心的影響。
在太平洋標準時間的11:55到13:05內,有長達70分鐘計算引擎無法與世界上的其他地區進行溝通。
據谷歌數據顯示,在故障期間該地區交通量減少了13%。
微軟Office 365 12月6日
12月6日,在西歐地區的下午大部分時間內,由于微軟Azure基礎設施的原因導致Office 365宕機。
其中大部分來自英國的用戶,不能接收到他們的電子郵件、文檔和其他使用微軟云為基礎的生產工具的文件,一些間歇性問題甚至長達4小時之久。
隨后微軟表示是因Active Directory配置錯誤引起的中斷。
稿源:WatchStor