Sie sind nicht allein, Azure Multi-Factor Authentication ist wieder ausgefallen

Symbol für die Lesezeit 3 Minute. lesen


Leser unterstützen MSpoweruser. Wir erhalten möglicherweise eine Provision, wenn Sie über unsere Links kaufen. Tooltip-Symbol

Lesen Sie unsere Offenlegungsseite, um herauszufinden, wie Sie MSPoweruser dabei helfen können, das Redaktionsteam zu unterstützen Lesen Sie weiter

Microsoft Azure

Microsofts Multi-Factor Authentication ist für einige Kunden wieder ausgefallen. Microsoft bestätigte das Problem auf seiner Statusseite und erwähnte, dass betroffene Kunden möglicherweise auf Zeitüberschreitungsfehler stoßen. Azure Engineers sind sich dieses Problems bewusst und untersuchen aktiv Möglichkeiten zur Risikominderung.

Es ist wichtig zu beachten, dass der Multi-Factor Authentication-Dienst von Microsoft erst letzte Woche für mehrere Stunden ausgefallen ist und Millionen von Benutzern den Zugriff auf verschiedene Dienste blockiert hat, darunter Office 365, Azure, Dynamics und andere Dienste, die Azure Active Directory zur Authentifizierung verwenden. Microsoft hat kürzlich die folgende Ursachenanalyse für diesen Ausfall veröffentlicht.

Es wurden drei unabhängige Ursachen entdeckt. Darüber hinaus verzögerten Lücken in der Telemetrie und Überwachung für die MFA-Dienste die Identifizierung und das Verständnis dieser Grundursachen, was zu einer verlängerten Zeit zur Behebung des Problems führte. Die ersten beiden Hauptursachen wurden als Probleme auf dem MFA-Front-End-Server identifiziert, die beide in einer Einführung eines Code-Updates eingeführt wurden, das in einigen Rechenzentren (DCs) am Dienstag, den 13. November 2018 begann und in allen DCs bis Freitag, den 16. November abgeschlossen wurde 2018. Später wurde festgestellt, dass die Probleme aktiviert werden, sobald ein bestimmter Schwellenwert für den Datenverkehr überschritten wurde, was zum ersten Mal am frühen Montag (UTC) in den Azure West Europe (EU) DCs auftrat. Die Merkmale des morgendlichen Spitzenverkehrs in den West-EU-DCs waren die ersten, die die Schwelle überschritten, die den Fehler ausgelöst hat. Die dritte Grundursache wurde in diesem Rollout nicht eingeführt und wurde im Rahmen der Untersuchung dieses Ereignisses gefunden.

1. Die erste Hauptursache manifestierte sich als Latenzproblem bei der Kommunikation des MFA-Frontends mit seinen Cache-Diensten. Dieses Problem trat unter hoher Last auf, sobald eine bestimmte Verkehrsschwelle erreicht wurde. Sobald dieses erste Problem bei den MFA-Diensten auftrat, wurde es wahrscheinlicher, dass sie die zweite Grundursache auslösten.
2. Die zweite Hauptursache ist eine Racebedingung bei der Verarbeitung von Antworten vom MFA-Backend-Server, die zu Wiederverwendungen der MFA-Frontend-Serverprozesse führte, was zusätzliche Latenz auslösen kann, und die dritte Hauptursache (unten) auf dem MFA-Backend.
3. Die dritte identifizierte Hauptursache war ein zuvor unentdecktes Problem im Back-End-MFA-Server, das durch die zweite Hauptursache ausgelöst wurde. Dieses Problem führt zu einer Anhäufung von Prozessen im MFA-Back-End, was zu einer Ressourcenerschöpfung im Back-End führt, an dem es keine weiteren Anfragen vom MFA-Front-End verarbeiten konnte, während es in unserer Überwachung ansonsten fehlerfrei erscheint.

Microsoft erwähnte auch, dass sie die folgenden Schritte unternehmen werden, um solche Probleme in Zukunft zu vermeiden.

  • Überprüfen Sie unsere Update-Bereitstellungsverfahren, um ähnliche Probleme während unserer Entwicklungs- und Testzyklen besser zu identifizieren (Fertigstellung bis Dezember 2018)
  • Überprüfen Sie die Überwachungsdienste, um Wege zu finden, die Erkennungszeit zu verkürzen und den Dienst schnell wiederherzustellen (Fertigstellung bis Dezember 2018).
  • Überprüfen Sie unseren Eindämmungsprozess, um zu vermeiden, dass ein Problem auf andere Rechenzentren übertragen wird (Fertigstellung bis Januar 2019)
  • Aktualisierung des Kommunikationsprozesses für das Service Health Dashboard und Überwachungstools, um Veröffentlichungsprobleme bei Vorfällen sofort zu erkennen (Fertigstellung bis Dezember 2018)

Wir werden den Beitrag mit den neuesten Informationen zum heutigen Ausfall aktualisieren, sobald Microsoft ihn bereitstellt.

Update von Microsoft:

AKTUELLE MITIGUNG: Ingenieure sind derzeit dabei, Back-End-Dienste zu wechseln, die für die Verarbeitung von MFA-Anfragen verantwortlich sind. Dieser Minderungsschritt wird Region für Region eingeführt, wobei eine Reihe von Regionen bereits abgeschlossen sind. Ingenieure bewerten die Auswirkungen nach Abschluss jeder Region neu. Techniker haben auch festgestellt, dass ein DNS-Problem (Domain Name System) dazu führte, dass Anmeldeanforderungen fehlschlugen, aber dieses Problem wurde behoben, und Techniker starten die Authentifizierungsinfrastruktur neu.

Mehr zu den Themen: azurblau, Azure MFA, enterprise, Microsoft, Multi-Faktor-Authentifizierung