|
上周 Microsoft Azure 位于澳大利亞新南威爾士州的數(shù)的數(shù)點(diǎn)網(wǎng)數(shù)據(jù)中心發(fā)生起火,除了服務(wù)全部離線外,據(jù)中據(jù)中件藍(lán)這次事故還導(dǎo)致部分硬件被燒毀。心僅心起珠海同城上門外圍上門外圍女(微信180-4582-8235)提供高端外圍上門真實(shí)靠譜快速安排不收定金見人滿意付30分鐘內(nèi)到達(dá)此次事故持續(xù)將近 24 小時(shí)才陸續(xù)恢復(fù),留名利亞其中由于硬件損壞,員工部分客戶的值班數(shù)據(jù)無法轉(zhuǎn)移只能通過恢復(fù)手段進(jìn)行復(fù)原。 微軟已經(jīng)發(fā)布了這次事故的微軟詳細(xì)報(bào)告,報(bào)告中提到了一些令人匪夷所思的火損毀硬情況,例如偌大的數(shù)的數(shù)點(diǎn)網(wǎng)珠海同城上門外圍上門外圍女(微信180-4582-8235)提供高端外圍上門真實(shí)靠譜快速安排不收定金見人滿意付30分鐘內(nèi)到達(dá)數(shù)據(jù)中心,在夜間竟然只有 3 名工程師值班,據(jù)中據(jù)中件藍(lán)盡管這 3 名工程師已經(jīng)盡力,心僅心起但面對這種情況時(shí)仍然忙不過來,留名利亞進(jìn)而導(dǎo)致事故變得更嚴(yán)重。員工 澳大利亞東區(qū)數(shù)據(jù)中心概況:由多個(gè)機(jī)房組成、值班使用水冷系統(tǒng)、微軟有 7 臺水冷設(shè)備其中 5 臺為常開機(jī) 2 臺為備用。
事故時(shí)間線: 事故觸發(fā)原因是新南威爾士州的市電供應(yīng)出現(xiàn)問題 (8 月 30 日 08:41,注意是 UTC+0 時(shí)間非當(dāng)?shù)貢r(shí)間),導(dǎo)致 5 臺常開水冷機(jī)組全部掛掉,只有 1 臺備用機(jī)組自動開機(jī),另一臺開機(jī)了但又跳閘了。 現(xiàn)場值班工程師按照緊急操作程序試圖恢復(fù)常開水冷機(jī)組但失敗了,微軟承認(rèn)由于數(shù)據(jù)中心園區(qū)的規(guī)模,夜間團(tuán)隊(duì)配備的人手不足以及時(shí)重啟水冷機(jī)組,為此微軟臨時(shí)將夜間值班工程師由 3 名增加到 7 名。 在水冷機(jī)組歇菜后,存儲和 SQL 服務(wù)器發(fā)出了告警,此時(shí)距離市電供應(yīng)問題已經(jīng)過去了 1 個(gè)小時(shí) 50 分鐘。隨著水冷機(jī)組的歇菜,服務(wù)器的溫度也越來越高。 接著工程師繼續(xù)嘗試啟動水冷機(jī)組,但依然沒能成功,到 11:20 水冷機(jī)組的 OEM 支持工程師抵達(dá)現(xiàn)場進(jìn)行處理,到 11:34 現(xiàn)場工程師最終決定關(guān)閉兩個(gè)受影響的數(shù)據(jù)大廳的基礎(chǔ)設(shè)施。 到 12:12 五臺常開水冷機(jī)組終于手動重啟成功,接著數(shù)據(jù)中心溫度開始逐漸下降,隨后工程師開始為受影響的基礎(chǔ)設(shè)施恢復(fù)供電,最終到次日 06:40 所有設(shè)施恢復(fù)、所有數(shù)據(jù)恢復(fù)。 微軟大客戶受影響嚴(yán)重: 新南威爾士州數(shù)據(jù)中心托管著微軟多個(gè)大客戶的數(shù)據(jù),包括但不限于昆士蘭銀行、捷星航空 (澳航旗下子公司) 等,這次事故導(dǎo)致微軟的這些大客戶受到嚴(yán)重影響。 從事故報(bào)告來看,故障自動轉(zhuǎn)移進(jìn)行的似乎并不是很順利,按照設(shè)計(jì)邏輯,一旦出現(xiàn)故障,服務(wù)會自動轉(zhuǎn)移到其他數(shù)據(jù)中心確??蛻舨皇苡绊?。 此次故障 Azure 的故障轉(zhuǎn)移也進(jìn)行了,但效果好像并不是很好,微軟表示后續(xù)要重新改進(jìn)。 微軟的事后反思: 1. 由于數(shù)據(jù)中心規(guī)模較大,夜間團(tuán)隊(duì)人員配備不足,無法及時(shí)重啟水冷機(jī)組,微軟暫時(shí)將夜間值班人員從 3 名增加到 7 名。 2. 對于這類大型事故,重啟水冷機(jī)組的經(jīng)濟(jì)操作程序執(zhí)行速度很慢,微軟正在探索改進(jìn)自動化方案用來應(yīng)對供電等問題。 3. 展望未來,微軟正在評估各種方法確保可以對各個(gè)水冷機(jī)組的子集負(fù)載曲線進(jìn)行優(yōu)先級排序,以便掛了的時(shí)候先將負(fù)載最高的機(jī)組重啟。 4. 利用流程表對工作負(fù)載故障轉(zhuǎn)移和設(shè)備關(guān)閉進(jìn)行排序,用來確定不同的優(yōu)先級,同時(shí)微軟正在改進(jìn)水冷溫度報(bào)告,以便更好的根據(jù)溫度閾值來決定何時(shí)進(jìn)行故障轉(zhuǎn)移或關(guān)閉服務(wù)器。 5. 五臺水冷機(jī)組沒有重啟,因?yàn)橄鄳?yīng)的水泵沒有收到水冷機(jī)組的運(yùn)行信號,這很重要,因?yàn)樗脤λ錂C(jī)組的成功啟動至關(guān)重要,為此微軟正在找水冷機(jī)組 OEM 調(diào)查為什么水冷機(jī)組沒有命令各自的水泵重啟。 6. 由于未知錯(cuò)誤,一臺備用水冷機(jī)組就是跳閘那個(gè)沒能自動重啟,微軟正在找 OEM 診斷。 |

