Microsoft 發布了本週重大 Microsoft 365 登入問題的根本原因分析

閱讀時間圖標 6分鐘讀


讀者幫助支持 MSpoweruser。如果您透過我們的連結購買,我們可能會獲得佣金。 工具提示圖標

請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 阅读更多

本週,我們有近 5 小時的 Microsoft 365 停機時間, 用戶無法登錄多個服務,包括 OneDrive 和 Microsoft Teams。

今天 微軟發布了該問題的根本原因分析,微軟稱這是由於服務更新,該服務更新旨在針對內部驗證測試環,但由於 Azure AD 後端服務安全部署過程 (SDP) 系統中的潛在代碼缺陷,它被直接部署到微軟的生產環境中。

微軟表示,在 21 年 25 月 28 日 2020:00 UTC 和 23 年 29 月 2020 日 2:25 UTC 之間,客戶在為所有依賴於 Azure Active Directory (Azure AD) 的微軟和第三方應用程序和服務執行身份驗證操作時遇到了錯誤。 ) 進行身份驗證。 到第二天 XNUMX 點 XNUMX 分,這個問題才完全緩解。

美國和澳大利亞受到的打擊最為嚴重,美國祇有 17% 的用戶能夠成功登錄。

由於 SDP 系統中的潛在缺陷破壞了部署元數據,微軟無法回滾更新,這使得該問題更加複雜,這意味著必須手動回滾更新。

微軟向受影響的客戶道歉,並表示他們將繼續採取措施改進微軟 Azure 平台及其流程,以幫助確保未來不會發生此類事件。 計劃的步驟之一包括對 Azure AD 服務後端 SDP 系統應用額外的保護,以防止發現的問題類別。

閱讀下面的完整分析:

RCA – 跨多個 Microsoft 服務和 Azure Active Directory 集成應用程序的身份驗證錯誤(跟踪 ID SM79-F88)

影響總結: 在 21 年 25 月 28 日 2020:00 UTC 和 23 年 29 月 2020 日 2:XNUMX UTC 之間,客戶可能在為依賴於 Azure Active Directory (Azure AD) 的所有 Microsoft 和第三方應用程序和服務執行身份驗證操作時遇到錯誤用於身份驗證。 使用 Azure AD BXNUMXC 進行身份驗證的應用程序也受到影響。

尚未使用 Azure AD 對雲服務進行身份驗證的用戶更有可能遇到問題,並且可能已經看到與下面顯示的平均可用性數字相對應的多個身份驗證請求失敗。 這些已在不同的客戶和工作負載中匯總。

  • 歐洲:事件期間的成功率為 81%。
  • 美洲:事件期間的成功率為 17%,在緩解之前提高到 37%。
  • 亞洲:事件前 72 分鐘的成功率為 120%。 隨著營業時間高峰流量的開始,可用性降至最低的 32%。
  • 澳大利亞:事件期間的成功率為 37%。

到 00 年 23 月 29 日 2020:02 UTC,大多數客戶的服務已恢復到正常的運營可用性,但是,我們觀察到身份驗證請求失敗的頻率很低,這可能會在 UTC 時間 25:XNUMX 之前影響客戶。

在影響開始時間之前進行身份驗證的用戶不太可能遇到問題,具體取決於他們正在訪問的應用程序或服務。

恢復措施到位,保護虛擬機、虛擬機規模集和 Azure Kubernetes 服務的託管身份服務,在整個事件期間平均可用性為 99.8%。

根本原因: 28 月 21 日 25:XNUMX UTC,部署了針對內部驗證測試環的服務更新,導致 Azure AD 後端服務在啟動時崩潰。 Azure AD 後端服務安全部署過程 (SDP) 系統中的潛在代碼缺陷導致它繞過我們的正常驗證過程直接部署到我們的生產環境中。

Azure AD 旨在成為一種以主動-主動配置部署的地理分佈式服務,該配置具有跨全球多個數據中心的多個分區,並使用隔離邊界構建。 通常,更改最初針對不包含客戶數據的驗證環,然後是僅包含 Microsoft 用戶的內環,最後是我們的生產環境。 這些更改將在幾天內跨五個環分階段部署。

在這種情況下,由於潛在缺陷影響了系統解釋部署元數據的能力,SDP 系統未能正確定位驗證測試環。 因此,所有環都同時成為目標。 不正確的部署導致服務可用性下降。

在影響的幾分鐘內,我們採取措施使用自動回滾系統恢復更改,這通常會限制影響的持續時間和嚴重程度。 然而,我們的 SDP 系統中的潛在缺陷破壞了部署元數據,我們不得不求助於手動回滾過程。 這大大延長了緩解問題的時間。

減輕: 我們的監控在最初影響的幾分鐘內檢測到服務降級,我們立即開始進行故障排除。 開展了以下緩解活動:

  • 影響始於世界標準時間 21:25,在 5 分鐘內,我們的監測檢測到了不健康的狀況,並立即啟動了工程。
  • 在接下來的 30 分鐘內,在對問題進行故障排除的同時,我們採取了一系列步驟來嘗試盡量減少對客戶的影響並加快緩解速度。 這包括在應用緩解措施後主動擴展一些 Azure AD 服務以處理預期負載,並將某些工作負載故障轉移到備份 Azure AD 身份驗證系統。
  • 在 22:02 UTC,我們確定了根本原因,開始補救,並啟動了我們的自動回滾機制。
  • 由於 SDP 元數據損壞,自動回滾失敗。 在 22:47 UTC 我們啟動了手動更新服務配置的過程,繞過了 SDP 系統,整個操作在 23:59 UTC 完成。
  • 到 00:23 UTC 足夠的後端服務實例返回到健康狀態以達到正常的服務操作參數。
  • 在 UTC 時間 02:25 之前,所有具有殘留影響的服務實例均已恢復。

下一步: 對於受影響客戶的影響,我們深表歉意。 我們正在不斷採取措施改進 Microsoft Azure 平台和我們的流程,以幫助確保未來不會發生此類事件。 在這種情況下,這包括(但不限於)以下內容:

我們已經完成了

  • 修復了 Azure AD 後端 SDP 系統中的潛在代碼缺陷。
  • 修復了現有的回滾系統,以允許恢復最後一個已知良好的元數據以防止損壞。
  • 擴大回滾操作演練的範圍和頻率。

其餘步驟包括

  • 對 Azure AD 服務後端 SDP 系統應用額外的保護,以防止此處確定的問題類別。
  • 加快向所有關鍵服務推出 Azure AD 備份身份驗證系統作為首要任務,以顯著減少未來類似類型問題的影響。
  • 將 Azure AD 場景載入自動化通信管道,該管道在 15 分鐘內向受影響的客戶發布初始通信。

提供反饋信息: 請參加我們的調查,幫助我們改善 Azure 客戶溝通體驗: 

通過 網易科技

發表評論

您的電子郵件地址將不會被發表。 必填字段標 *