Microsoft objavljuje analizu temeljnih uzroka velikih ovotjednih problema s prijavom na Microsoft 365

Ikona vremena čitanja 6 min. čitati


Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza. Ikona opisa alata

Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više

Ovaj tjedan imali smo gotovo 5-satno zastoje za Microsoft 365, s korisnicima koji se ne mogu prijaviti na više usluga, uključujući OneDrive i Microsoft Teams.

Danas Microsoft je objavio analizu uzroka problema, za koji Microsoft kaže da je posljedica ažuriranja usluge koje je trebalo ciljati na interni testni prsten za provjeru valjanosti, ali koje je umjesto toga implementirano izravno u Microsoftovo proizvodno okruženje zbog latentnog defekta koda u sustavu procesa sigurnog postavljanja (SDP) pozadinske usluge Azure AD.

Microsoft kaže da su korisnici između otprilike 21:25 UTC 28. rujna 2020. i 00:23 UTC 29. rujna 2020. naišli na pogreške prilikom izvođenja operacija provjere autentičnosti za sve aplikacije i usluge Microsofta i trećih strana koje ovise o Azure Active Directory (Azure AD ) za provjeru autentičnosti. Problem je za sve u potpunosti ublažen tek sljedećeg dana u 2:25.

SAD i Australija bili su najteže pogođeni, sa samo 17% korisnika u SAD-u koji se mogao uspješno prijaviti.

Problem je bio pojačan time što Microsoft nije mogao vratiti ažuriranje unatrag zbog latentnog defekta u njihovom SDP sustavu koji je oštetio metapodatke implementacije, što znači da je ažuriranje moralo biti ručno vraćeno.

Microsoft se ispričao pogođenim korisnicima i kaže da nastavljaju poduzeti korake za poboljšanje Microsoft Azure platforme i njihovih procesa kako bi osigurali da se takvi incidenti ne događaju u budućnosti. Jedan od planiranih koraka uključuje primjenu dodatne zaštite na pozadinski SDP sustav Azure AD usluge kako bi se spriječila klasa identificiranih problema.

Cijelu analizu pročitajte u nastavku:

RCA – Pogreške u autentifikaciji na više Microsoftovih usluga i integriranih aplikacija Azure Active Directory (ID praćenja SM79-F88)

Sažetak utjecaja: Između otprilike 21:25 UTC 28. rujna 2020. i 00:23 UTC 29. rujna 2020., korisnici su možda naišli na pogreške pri izvođenju operacija provjere autentičnosti za sve aplikacije i usluge tvrtke Microsoft i trećih strana koje ovise o Azure Active Directory (Azure AD) za autentifikaciju. Utjecale su i aplikacije koje koriste Azure AD B2C za provjeru autentičnosti.

Korisnici koji već nisu bili autentificirani za usluge u oblaku pomoću Azure AD vjerojatnije su imali probleme i mogli su vidjeti višestruke neuspjehe zahtjeva za provjeru autentičnosti koje odgovaraju prosječnim brojevima dostupnosti prikazanim u nastavku. Oni su agregirani među različitim klijentima i radnim opterećenjima.

  • Europa: 81% uspješnosti za vrijeme trajanja incidenta.
  • Amerika: 17% uspješnosti za vrijeme trajanja incidenta, poboljšanje na 37% neposredno prije ublažavanja.
  • Azija: 72% uspješnosti u prvih 120 minuta incidenta. Kako je počeo najveći promet u radnim satima, dostupnost je pala na najnižu razinu od 32%.
  • Australija: 37% uspješnosti za vrijeme trajanja incidenta.

Usluga je vraćena na uobičajenu operativnu dostupnost za većinu korisnika do 00:23 UTC 29. rujna 2020., međutim, primijetili smo rijetke kvarove zahtjeva za provjeru autentičnosti koji su mogli utjecati na korisnike do 02:25 UTC.

Korisnici koji su se autentificirali prije vremena početka utjecaja imali su manje šanse da će imati problema ovisno o aplikacijama ili uslugama kojima su pristupali.

Uvedene su mjere otpornosti zaštićene usluge Upravljanih identiteta za virtualne strojeve, skupove skale virtualnih strojeva i usluge Azure Kubernetes s prosječnom dostupnošću od 99.8% tijekom cijelog trajanja incidenta.

Osnovni uzrok: Dana 28. rujna u 21:25 UTC postavljeno je ažuriranje usluge koje cilja na interni testni prsten za provjeru valjanosti, što je uzrokovalo pad pri pokretanju u pozadinskim uslugama Azure AD. Latentni defekt koda u sustavu sigurnog procesa postavljanja (SDP) pozadinske usluge Azure AD doveo je do toga da se ovo implementira izravno u naše proizvodno okruženje, zaobilazeći naš normalni proces provjere valjanosti.

Azure AD je dizajniran da bude geo-distribuirana usluga implementirana u aktivno-aktivnoj konfiguraciji s više particija u više podatkovnih centara diljem svijeta, izgrađena s granicama izolacije. Obično promjene u početku ciljaju na prsten za provjeru valjanosti koji ne sadrži podatke o klijentima, nakon čega slijedi unutarnji prsten koji sadrži samo korisnike Microsofta i na kraju naše proizvodno okruženje. Ove promjene se primjenjuju u fazama kroz pet prstenova tijekom nekoliko dana.

U ovom slučaju, SDP sustav nije uspio ispravno ciljati testni prsten za provjeru valjanosti zbog latentnog defekta koji je utjecao na sposobnost sustava da tumači metapodatke implementacije. Posljedično, svi prstenovi su istovremeno ciljani. Netočna implementacija uzrokovala je smanjenje dostupnosti usluge.

Unutar nekoliko minuta nakon utjecaja, poduzeli smo korake za poništavanje promjene pomoću automatiziranih sustava vraćanja unatrag koji bi inače ograničili trajanje i ozbiljnost utjecaja. Međutim, latentni defekt u našem SDP sustavu oštetio je metapodatke implementacije i morali smo pribjeći ručnim procesima vraćanja. To je značajno produžilo vrijeme za ublažavanje problema.

Smanjenje: Naše praćenje otkrilo je degradaciju usluge u roku od nekoliko minuta od početnog udara i odmah smo se angažirali da započnemo rješavanje problema. Poduzete su sljedeće aktivnosti ublažavanja:

  • Udar je započeo u 21:25 UTC, a unutar 5 minuta naš nadzor je otkrio nezdravo stanje i inženjering je odmah angažiran.
  • Tijekom sljedećih 30 minuta, paralelno s rješavanjem problema, poduzet je niz koraka kako bi se smanjio utjecaj na korisnike i ubrzalo ublažavanje. To je uključivalo proaktivno skaliranje nekih Azure AD usluga za rukovanje predviđenim opterećenjem nakon što bi se primijenilo ublažavanje i neuspjeh preko određenih radnih opterećenja na sigurnosnom Azure AD sustavu provjere autentičnosti.
  • U 22:02 UTC ustanovili smo osnovni uzrok, započeli sanaciju i pokrenuli naše automatizirane mehanizme vraćanja.
  • Automatsko vraćanje nije uspjelo zbog oštećenja SDP-ovih metapodataka. U 22:47 UTC pokrenuli smo proces ručnog ažuriranja konfiguracije usluge koja zaobilazi SDP sustav, a cijela operacija je dovršena do 23:59 UTC.
  • Do 00:23 UTC dovoljno instanci pozadinske usluge vratilo se u zdravo stanje da bi se postiglo normalne operativne parametre usluge.
  • Svi slučajevi usluge s rezidualnim utjecajem oporavljeni su do 02:25 UTC.

Sljedeći koraci: Iskreno se ispričavamo zbog utjecaja na pogođene klijente. Kontinuirano poduzimamo korake za poboljšanje Microsoft Azure platforme i naših procesa kako bismo osigurali da se takvi incidenti ne događaju u budućnosti. U ovom slučaju, to uključuje (ali nije ograničeno na) sljedeće:

Već smo završili

  • Ispravljen je latentni defekt koda u Azure AD pozadinskom SDP sustavu.
  • Popravljen postojeći sustav vraćanja unatrag kako bi se omogućilo vraćanje posljednjih poznatih dobrih metapodataka radi zaštite od korupcije.
  • Proširiti opseg i učestalost vježbi za rad s vraćanjem unatrag.

Preostali koraci uključuju

  • Primijenite dodatne zaštite na pozadinski SDP sustav Azure AD usluge kako biste spriječili klasu problema identificiranih ovdje.
  • Ubrzajte uvođenje Azure AD sigurnosnog sustava provjere autentičnosti na sve ključne usluge kao glavni prioritet kako biste značajno smanjili utjecaj slične vrste problema u budućnosti.
  • Ugrađeni Azure AD scenariji u automatizirani komunikacijski cjevovod koji objavljuje početnu komunikaciju pogođenim korisnicima unutar 15 minuta od utjecaja.

Pružiti povratnu informaciju: Pomozite nam poboljšati iskustvo komunikacije s korisnicima Azurea ispunjavanjem naše ankete: 

preko ZDNet

Ostavi odgovor

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena *