Microsoft uverejňuje analýzu hlavných príčin veľkých problémov s prihlásením do Microsoft 365 z tohto týždňa

Ikona času čítania 6 min. čítať

Ikona kalendára Aktualizované na Októbra 3, 2020

aktualizované dňa Októbra 3, 2020

Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu.

Tento týždeň sme mali takmer 5-hodinový výpadok pre Microsoft 365, s používateľmi, ktorí sa nemôžu prihlásiť do viacerých služieb vrátane OneDrive a Microsoft Teams.

dnes Microsoft zverejnil analýzu koreňovej príčiny problému, ktorá bola podľa Microsoftu spôsobená aktualizáciou služby, ktorá mala byť zameraná na interný overovací testovací kruh, ale namiesto toho bola nasadená priamo do produkčného prostredia Microsoftu kvôli latentnej chybe kódu v systéme bezpečného nasadenia služby Azure AD (SDP).

Microsoft uvádza, že medzi približne 21:25 UTC 28. septembra 2020 a 00:23 UTC 29. septembra 2020 sa zákazníci stretli s chybami pri vykonávaní operácií autentifikácie pre všetky aplikácie a služby Microsoftu a tretích strán, ktoré závisia od Azure Active Directory (Azure AD ) na overenie. Problém bol úplne zmiernený pre všetkých do 2:25 nasledujúceho dňa.

Najviac zasiahnuté boli USA a Austrália, pričom len 17 % používateľov v USA sa dokázalo úspešne prihlásiť.

Problém bol znásobený tým, že Microsoft nemohol vrátiť aktualizáciu kvôli latentnej chybe v ich systéme SDP, ktorá poškodzovala metadáta nasadenia, čo znamená, že aktualizácia musela byť vrátená ručne.

Spoločnosť Microsoft sa ospravedlnila dotknutým zákazníkom a uviedla, že naďalej podniká kroky na zlepšenie platformy Microsoft Azure a ich procesov, aby zabezpečili, že sa takéto incidenty v budúcnosti nevyskytujú. Jeden z plánovaných krokov zahŕňa použitie dodatočnej ochrany na backendový SDP systém služby Azure AD, aby sa predišlo triede identifikovaných problémov.

Prečítajte si celú analýzu nižšie:

RCA – Chyby overenia v rámci viacerých služieb spoločnosti Microsoft a integrovaných aplikácií Azure Active Directory (ID sledovania SM79-F88)

Zhrnutie vplyvu: Medzi približne 21:25 UTC 28. septembra 2020 a 00:23 UTC 29. septembra 2020 sa zákazníci mohli stretnúť s chybami pri vykonávaní operácií autentifikácie pre všetky aplikácie a služby spoločnosti Microsoft a tretích strán, ktoré závisia od Azure Active Directory (Azure AD) na overenie. Ovplyvnené boli aj aplikácie využívajúce Azure AD B2C na autentifikáciu.

Používatelia, ktorí ešte neboli overení v cloudových službách pomocou Azure AD, mali väčšiu pravdepodobnosť problémov a mohli zaznamenať viacero zlyhaní žiadostí o overenie zodpovedajúcich priemerným číslam dostupnosti uvedeným nižšie. Tieto boli agregované medzi rôznymi zákazníkmi a pracovnými záťažami.

Európa: 81 % úspešnosť počas trvania incidentu.

Amerika: 17 % úspešnosť počas trvania incidentu, zlepšenie na 37 % tesne pred zmiernením.

Ázia: 72% úspešnosť v prvých 120 minútach incidentu. Keď začala špičková prevádzka počas pracovných hodín, dostupnosť klesla na 32 % na najnižšiu úroveň.

Austrália: 37% úspešnosť počas trvania incidentu.

Služba bola obnovená na normálnu prevádzkovú dostupnosť pre väčšinu zákazníkov do 00:23 UTC dňa 29. septembra 2020, zaznamenali sme však zriedkavé zlyhania žiadostí o overenie, ktoré mohli mať vplyv na zákazníkov až do 02:25 UTC.

Používatelia, ktorí sa overili pred časom začiatku dopadu, mali menšiu pravdepodobnosť problémov v závislosti od aplikácií alebo služieb, ku ktorým pristupovali.

Zavedené opatrenia odolnosti chránili služby Managed Identities pre virtuálne stroje, sady škálovania virtuálnych strojov a služby Azure Kubernetes s priemernou dostupnosťou 99.8 % počas trvania incidentu.

Príčina: 28. septembra o 21:25 UTC bola nasadená aktualizácia služby zameraná na interný overovací testovací kruh, čo spôsobilo zlyhanie pri spustení v backendových službách Azure AD. Latentná chyba kódu v systéme procesu bezpečného nasadenia (SDP) backendovej služby Azure AD spôsobila nasadenie priamo do nášho produkčného prostredia, čím sa obišiel náš normálny proces overovania.

Azure AD je navrhnutá ako geograficky distribuovaná služba nasadená v aktívnej a aktívnej konfigurácii s viacerými oddielmi naprieč viacerými dátovými centrami po celom svete, postavená s hranicami izolácie. Za normálnych okolností sa zmeny najprv zameriavajú na overovací kruh, ktorý neobsahuje žiadne údaje o zákazníkoch, potom nasleduje vnútorný kruh, ktorý obsahuje iba používateľov spoločnosti Microsoft, a nakoniec naše produkčné prostredie. Tieto zmeny sú nasadené vo fázach v piatich kruhoch počas niekoľkých dní.

V tomto prípade systém SDP nedokázal správne zacieliť overovací testovací kruh v dôsledku latentnej chyby, ktorá ovplyvnila schopnosť systému interpretovať metadáta nasadenia. V dôsledku toho boli všetky krúžky zamerané súčasne. Nesprávne nasadenie spôsobilo zhoršenie dostupnosti služby.

V priebehu niekoľkých minút po náraze sme podnikli kroky na vrátenie zmeny pomocou automatizovaných systémov vrátenia, ktoré by za normálnych okolností obmedzili trvanie a závažnosť dopadu. Skrytá chyba v našom systéme SDP však poškodila metadáta nasadenia a museli sme sa uchýliť k ručným procesom vrátenia. To výrazne predĺžilo čas na zmiernenie problému.

zmiernenie: Naše monitorovanie zistilo zhoršenie služby v priebehu niekoľkých minút od prvého dopadu a okamžite sme začali s riešením problémov. Vykonali sa tieto zmierňujúce činnosti:

Náraz začal o 21:25 UTC a do 5 minút naše monitorovanie zistilo nezdravý stav a okamžite sa zapojilo inžinierstvo.

Počas nasledujúcich 30 minút, súbežne s riešením problému, bola vykonaná séria krokov s cieľom minimalizovať dopad na zákazníka a urýchliť zmiernenie. Zahŕňalo to proaktívne škálovanie niektorých služieb Azure AD, aby zvládli očakávané zaťaženie po uplatnení zmiernenia, a zlyhanie pri určitých pracovných zaťaženiach záložného overovacieho systému Azure AD.

O 22:02 UTC sme určili hlavnú príčinu, začali s nápravou a spustili naše automatické mechanizmy vrátenia.

Automatizované vrátenie zlyhalo v dôsledku poškodenia metadát SDP. O 22:47 UTC sme spustili proces ručnej aktualizácie konfigurácie služby, ktorá obchádza systém SDP, a celá operácia bola dokončená do 23:59 UTC.

Do 00:23 UTC sa dostatok inštancií backendovej služby vrátilo do zdravého stavu na dosiahnutie normálnych prevádzkových parametrov služby.

Všetky servisné prípady so zvyškovým dopadom boli obnovené do 02:25 UTC.

Ďalšie kroky: Úprimne sa ospravedlňujeme za vplyv na dotknutých zákazníkov. Neustále podnikáme kroky na zlepšenie platformy Microsoft Azure a našich procesov, aby sme zabezpečili, že sa takéto incidenty v budúcnosti nevyskytujú. V tomto prípade to zahŕňa (okrem iného) nasledovné:

Už sme dokončili

Opravená chyba latentného kódu v backendovom systéme SDP Azure AD.

Opravený existujúci systém vrátenia, ktorý umožňuje obnovenie posledných známych dobrých metadát na ochranu pred poškodením.

Rozšírte rozsah a frekvenciu cvičení vrátenia späť.

Zostávajúce kroky zahŕňajú

Aplikujte ďalšie ochrany na koncový systém SDP služby Azure AD, aby ste zabránili triede problémov, ktoré sú tu identifikované.

Urýchlite zavedenie záložného autentifikačného systému Azure AD do všetkých kľúčových služieb ako najvyššiu prioritu, aby ste v budúcnosti výrazne znížili dopad podobného typu problému.

Integrované scenáre Azure AD do automatizovaného komunikačného kanála, ktorý odošle úvodnú komunikáciu dotknutým zákazníkom do 15 minút od dopadu.

Poskytnite spätnú väzbu: Pomôžte nám zlepšiť komunikáciu so zákazníkmi Azure vyplnením nášho prieskumu: https://aka.ms/AzurePIRSurvey

via ZDNet

Surur Davids

Expert na smartfóny

Surur Davids je zakladateľom WMPoweruser, ktorý sa neskôr stal MSPoweruser.com. Je to odborník na smartfóny s viac ako desaťročnými skúsenosťami.

RCA – Chyby overenia v rámci viacerých služieb spoločnosti Microsoft a integrovaných aplikácií Azure Active Directory (ID sledovania SM79-F88)

Nechaj odpoveď