Microsoft zveřejnil předběžnou analýzu kořenových příčin včerejšího velkého výpadku Microsoft 365

Ikona času čtení 2 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Exchange server

Včera Cloudové služby Microsoftu utrpěly velký výpadek což Microsoft přičítal nemožnosti provádět ověřovací operace v aplikacích Microsoftu a třetích stran, které jsou pro ověřování závislé na Azure Active Directory (Azure AD).

Problém trval celkem bezprecedentních 14 hodin a znamenal pro mnoho společností pracovní den zkažený.

Společnost Microsoft dnes zveřejnila předběžnou analýzu kořenových příčin, která obviňuje chybu, ke které došlo při rotaci klíčů používaných k podpoře používání OpenID Azure AD a dalších standardních protokolů Identity pro operace kryptografického podepisování.

Microsoft říká, že jako součást standardní hygieny zabezpečení automatický systém na základě časového plánu odstraňuje klíče, které se již nepoužívají. Během posledních několika týdnů byl konkrétní klíč označen jako „uchovat“ déle než normálně, aby se podpořila komplexní migrace mezi cloudy. To odhalilo chybu, kdy automatizace nesprávně ignorovala stav „zachování“, což vedlo k odstranění tohoto konkrétního klíče.

Metadata o podpisových klíčích publikuje Azure AD do globálního umístění v souladu se standardními protokoly Internet Identity. Jakmile byla veřejná metadata v 19:00 UTC změněna, aplikace používající tyto protokoly s Azure AD začaly získávat nová metadata a přestaly důvěřovat tokenům/tvrzením podepsaným klíčem, který byl odstraněn. V tu chvíli již koncoví uživatelé neměli k těmto aplikacím přístup.

Řešení bylo jednoduché. Operace odstranění klíče byla identifikována jako příčina a metadata klíče byla vrácena zpět do předchozího stavu ve 21:05 UTC. Bohužel podmnožina prostředků úložiště zaznamenala zbytkový dopad kvůli metadatům uloženým v mezipaměti a společnost Microsoft potřebovala provést aktualizaci, aby tyto položky zrušila a vynutila obnovení. Tento proces byl dokončen a v 09:25 UTC bylo deklarováno zmírnění dopadů na zákazníky.

Microsoft říká, že má zavedeny procesy, které této třídě rizik předcházejí, ale i když již poskytuje ochranu pro přidání nového klíče, komponenta odebrání klíče má být dokončena teprve v polovině roku.

Společnost Microsoft se za problém omluvila a uvedla, že neustále podniká kroky ke zlepšení platformy Microsoft Azure a jejích procesů, aby zajistila, že k podobným incidentům v budoucnu nedochází.

Úplné vyšetřování analýzy hlavních příčin související s tímto incidentem stále probíhá a bude zveřejněno, jakmile bude dokončeno, nebo pokud se mezitím objeví nějaké další podstatné podrobnosti.

Přečtěte si všechny podrobnosti v Microsoftu zde.

přes ZDNet

Více o tématech: blankyt, microsoft