あなただけではありません、Azure Multi-FactorAuthenticationが再びダウンしました
3分。 読んだ
上で公開
MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む
一部のお客様では、Microsoftの多要素認証が再び停止しています。 Microsoftはその問題を確認しました ステータスページ 影響を受けた顧客はタイムアウトエラーに遭遇する可能性があると述べました。 Azureエンジニアはこの問題を認識しており、軽減オプションを積極的に調査しています。
先週、MicrosoftのMulti-Factor Authenticationサービスが数時間ダウンし、何百万ものユーザーがOffice 365、Azure、Dynamics、および認証にAzureActiveDirectoryを使用するその他のサービスを含むさまざまなサービスにアクセスできなくなったことに注意してください。 Microsoftは最近、この停止の根本原因分析を以下に掲載しました。
発見された13つの独立した根本原因がありました。 さらに、MFAサービスのテレメトリと監視のギャップにより、これらの根本原因の特定と理解が遅れ、緩和時間が長くなりました。 最初の2018つの根本的な原因は、MFAフロントエンドサーバーの問題として特定されました。どちらも、16年2018月XNUMX日火曜日に一部のデータセンター(DC)で開始され、XNUMX月XNUMX日金曜日までにすべてのDCで完了したコード更新のロールアウトで導入されました。 XNUMX.この問題は、Azure West Europe(EU)DCで月曜日の初め(UTC)に初めて発生した特定のトラフィックしきい値を超えると、後でアクティブになると判断されました。 西EUDCの朝のピークトラフィック特性は、バグを引き起こしたしきい値を最初に超えました。 XNUMX番目の根本原因はこのロールアウトでは紹介されておらず、このイベントの調査の一部として発見されました。
1.最初の根本的な原因は、MFAフロントエンドのキャッシュサービスへの通信における遅延の問題として現れました。 この問題は、特定のトラフィックしきい値に達すると、高負荷で発生しました。 MFAサービスでこの最初の問題が発生すると、XNUMX番目の根本原因を引き起こす可能性が高くなります。
2. XNUMX番目の根本原因は、MFAバックエンドサーバーからの応答を処理する際の競合状態であり、MFAフロントエンドサーバープロセスのリサイクルにつながり、MFAバックエンドで追加の遅延とXNUMX番目の根本原因(下記)をトリガーする可能性があります。
3. XNUMX番目に特定された根本原因は、XNUMX番目の根本原因によってトリガーされたバックエンドMFAサーバーで以前は検出されなかった問題でした。 この問題により、MFAバックエンドでプロセスが蓄積され、バックエンドでリソースが枯渇します。この時点で、MFAフロントエンドからのそれ以上の要求を処理できず、監視では正常に表示されます。
Microsoftはまた、将来このような問題を回避するために次の手順を実行する予定であると述べました。
- 更新の展開手順を確認して、開発およびテストサイクル中に同様の問題をより適切に特定します(2018年XNUMX月までに完了)
- 監視サービスを確認して、検出時間を短縮し、サービスを迅速に復元する方法を特定します(2018年XNUMX月までに完了)
- 他のデータセンターへの問題の伝播を回避するために、封じ込めプロセスを確認します(2019年XNUMX月までに完了)
- サービスヘルスダッシュボードと監視ツールへの通信プロセスを更新して、インシデントの発生時に公開の問題を即座に検出します(2018年XNUMX月までに完了)
Microsoftから提供されたら、本日の停止に関する最新情報で投稿を更新します。
Microsoftからの更新:
現在の緩和策:エンジニアは現在、MFAリクエストの処理を担当するバックエンドサービスを循環させるプロセスにあります。 この緩和策は、すでにいくつかの地域が完了している地域ごとに展開されています。 エンジニアは、各地域が完了した後、影響を再評価しています。 エンジニアは、ドメインネームシステム(DNS)の問題が原因でサインイン要求が失敗したことも確認しましたが、この問題は軽減され、エンジニアは認証インフラストラクチャを再起動しています。