Microsoft publiceert voorlopige Root Cause Analysis voor de grote Microsoft 365-storing van gisteren

Pictogram voor leestijd 2 minuut. lezen


Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt. Tooltip-pictogram

Lees onze openbaarmakingspagina om erachter te komen hoe u MSPoweruser kunt helpen het redactieteam te ondersteunen Lees meer

Exchange server

Gisteren De cloudservices van Microsoft hadden een grote storing die Microsoft toeschreef aan het onvermogen om verificatiebewerkingen uit te voeren op alle toepassingen van Microsoft en van derden die voor verificatie afhankelijk zijn van Azure Active Directory (Azure AD).

Het probleem duurde in totaal een ongekende 14 uur en betekende voor veel bedrijven dat de werkdag verpest werd.

Microsoft heeft vandaag een voorlopige analyse van de hoofdoorzaak gepost waarin de schuld wordt gegeven aan een fout die is opgetreden in de rotatie van sleutels die worden gebruikt om het gebruik van OpenID door Azure AD en andere standaardprotocollen voor identiteiten voor cryptografische ondertekeningsbewerkingen te ondersteunen.

Microsoft zegt dat als onderdeel van de standaard beveiligingshygiëne, een geautomatiseerd systeem, volgens een op tijd gebaseerd schema, sleutels verwijdert die niet meer in gebruik zijn. De afgelopen weken werd een bepaalde sleutel langer dan normaal gemarkeerd als "behouden" om een ​​complexe cross-cloud-migratie te ondersteunen. Dit bracht een bug aan het licht waarbij de automatisering die "retain" -status ten onrechte negeerde, waardoor die specifieke sleutel werd verwijderd.

Metagegevens over de ondertekeningssleutels worden door Azure AD gepubliceerd naar een globale locatie in overeenstemming met de standaardprotocollen voor internetidentiteit. Nadat de openbare metagegevens om 19:00 uur UTC waren gewijzigd, begonnen toepassingen die deze protocollen met Azure AD gebruikten de nieuwe metagegevens op te halen en stopten ze met het vertrouwen van tokens/beweringen die waren ondertekend met de verwijderde sleutel. Op dat moment hadden eindgebruikers geen toegang meer tot die applicaties.

De oplossing was simpel. De sleutelverwijderingsoperatie werd geïdentificeerd als de oorzaak en de belangrijkste metadata werden teruggedraaid naar de vorige status om 21:05 UTC. Helaas ondervond een subset van opslagbronnen een resterende impact vanwege metagegevens in de cache, en Microsoft moest een update pushen om deze vermeldingen ongeldig te maken en een vernieuwing af te dwingen. Dit proces is voltooid en de beperking voor de resterende getroffen klanten is om 09:25 UTC aangekondigd.

Microsoft zegt dat ze processen hebben om deze klasse van risico's te voorkomen, maar hoewel het al bescherming biedt voor het toevoegen van een nieuwe sleutel, is het de bedoeling dat het onderdeel voor het verwijderen van de sleutel pas halverwege het jaar klaar is.

Microsoft verontschuldigde zich voor het probleem en zegt dat ze voortdurend stappen ondernemen om het Microsoft Azure Platform en hun processen te verbeteren om ervoor te zorgen dat dergelijke incidenten in de toekomst niet meer voorkomen.

Een volledig Root Cause Analysis-onderzoek met betrekking tot dit incident is nog aan de gang en zal worden gepubliceerd wanneer het is voltooid, of als er in de tussentijd andere inhoudelijke details naar voren komen.

Lees alle details bij Microsoft hier.

via ZDNet

Meer over de onderwerpen: azuur, microsoft