Microsoft objavlja analizo temeljnih vzrokov za ta teden velikih težav pri prijavi v Microsoft 365

Ikona časa branja 6 min. prebrati


Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo. Ikona opisa orodja

Preberite našo stran za razkritje, če želite izvedeti, kako lahko pomagate MSPoweruser vzdrževati uredniško skupino Preberi več

Ta teden smo imeli skoraj 5-urni izpad za Microsoft 365, z uporabniki, ki se ne morejo prijaviti v več storitev, vključno z OneDrive in Microsoft Teams.

danes Microsoft je objavil analizo osnovnega vzroka težave, za katero Microsoft pravi, da je nastala zaradi posodobitve storitve, ki naj bi bila usmerjena na notranji testni obroč za preverjanje veljavnosti, vendar je bila namesto tega nameščena neposredno v Microsoftovo produkcijsko okolje zaradi skrite napake kode v sistemu varnega procesa razmestitve (SDP) zaledne storitve Azure AD.

Microsoft pravi, da so stranke med približno 21:25 UTC 28. septembra 2020 in 00:23 UTC 29. septembra 2020 naletele na napake pri izvajanju operacij preverjanja pristnosti za vse Microsoftove aplikacije in storitve tretjih oseb, ki so odvisne od Azure Active Directory (Azure AD ) za preverjanje pristnosti. Težava je bila za vse popolnoma omilila šele naslednji dan ob 2:25.

Najbolj so bile prizadete ZDA in Avstralija, saj se je le 17 % uporabnikov v ZDA uspelo uspešno prijaviti.

Težavo se je še poslabšalo, ker Microsoft ni mogel povrniti posodobitve zaradi skrite napake v njihovem sistemu SDP, ki je poškodovala metapodatke uvajanja, kar pomeni, da je bilo treba posodobitev ročno povrniti nazaj.

Microsoft se je opravičil prizadetim strankam in dejal, da še naprej sprejemajo ukrepe za izboljšanje platforme Microsoft Azure in njihovih procesov, da bi preprečili, da bi se takšni incidenti v prihodnosti zgodili. Eden od načrtovanih korakov vključuje uporabo dodatne zaščite za sistem SDP v zaledju storitve Azure AD, da se prepreči vrsta ugotovljenih težav.

Preberite celotno analizo spodaj:

RCA – Napake pri preverjanju pristnosti v več Microsoftovih storitvah in integriranih aplikacijah Azure Active Directory (ID sledenja SM79-F88)

Povzetek učinka: Med približno 21:25 UTC 28. septembra 2020 in 00:23 UTC 29. septembra 2020 so stranke morda naletele na napake pri izvajanju operacij preverjanja pristnosti za vse aplikacije in storitve Microsofta in drugih izdelovalcev, ki so odvisne od Azure Active Directory (Azure AD). za preverjanje pristnosti. To je vplivalo tudi na aplikacije, ki uporabljajo Azure AD B2C za preverjanje pristnosti.

Uporabniki, ki še niso bili overjeni za storitve v oblaku z uporabo Azure AD, so imeli večjo verjetnost, da bodo imeli težave in so morda opazili več napak pri zahtevi za preverjanje pristnosti, ki ustrezajo povprečnim številkam razpoložljivosti, prikazanim spodaj. Te so bile združene med različnimi strankami in delovnimi obremenitvami.

  • Evropa: 81 % uspešnost v času trajanja incidenta.
  • Amerike: 17-odstotna stopnja uspešnosti v času trajanja incidenta, izboljšanje na 37-odstotno tik pred ublažitvijo.
  • Azija: 72 % uspešnost v prvih 120 minutah incidenta. Ko se je začel promet v delovnem času, je dosegljivost padla na najnižjo raven 32 %.
  • Avstralija: 37 % uspešnost v času trajanja incidenta.

Storitev je bila obnovljena na normalno delovno razpoložljivost za večino strank do 00:23 UTC 29. septembra 2020, vendar smo opazili redke napake pri zahtevi za preverjanje pristnosti, ki so lahko vplivale na stranke do 02:25 UTC.

Uporabniki, ki so se overili pred začetkom vpliva, so imeli manj verjetnosti, da bodo imeli težave, odvisno od aplikacij ali storitev, do katerih so dostopali.

Ukrepi odpornosti so z vzpostavljenimi zaščitenimi storitvami upravljanih identitet za navidezne stroje, nabore obsega virtualnih strojev in storitve Azure Kubernetes s povprečno razpoložljivostjo 99.8 % v času trajanja incidenta.

Glavni vzrok: 28. septembra ob 21:25 UTC je bila nameščena posodobitev storitve, ki je ciljala na notranji preizkusni obroč za preverjanje veljavnosti, kar je povzročilo zrušitev ob zagonu v zalednih storitvah Azure AD. Latentna napaka kode v sistemu varnega procesa razmestitve (SDP) storitve Azure AD je povzročila, da se je ta umestila neposredno v naše produkcijsko okolje, pri čemer je zaobšel naš običajni postopek preverjanja.

Azure AD je zasnovan kot geo-distribuirana storitev, razporejena v aktivno-aktivni konfiguraciji z več particijami v več podatkovnih centrih po vsem svetu, zgrajena z izolacijskimi mejami. Običajno spremembe najprej ciljajo na potrditveni obroč, ki ne vsebuje podatkov o strankah, čemur sledi notranji obroč, ki vsebuje samo Microsoftove uporabnike, in nazadnje naše produkcijsko okolje. Te spremembe se izvajajo v fazah v petih obročkih v nekaj dneh.

V tem primeru sistem SDP ni uspel pravilno ciljati na obroč preverjanja veljavnosti zaradi skrite napake, ki je vplivala na zmožnost sistema za razlago metapodatkov o razmestitvi. Posledično so bili vsi obroči usmerjeni hkrati. Nepravilna uvedba je povzročila poslabšanje razpoložljivosti storitev.

V nekaj minutah po vplivu smo sprejeli ukrepe za razveljavitev spremembe z uporabo avtomatiziranih sistemov za povrnitev, ki bi običajno omejili trajanje in resnost vpliva. Vendar je skrita napaka v našem sistemu SDP poškodovala metapodatke o uvajanju in morali smo se zateči k ročnim postopkom povrnitve. To je bistveno podaljšalo čas za ublažitev težave.

Omilitev: Naše spremljanje je zaznalo poslabšanje storitve v nekaj minutah po začetnem udarcu in takoj smo začeli odpravljati težave. Izvedene so bile naslednje blažilne aktivnosti:

  • Udar se je začel ob 21:25 UTC in v 5 minutah je naš nadzor zaznal nezdravo stanje in takoj je bil angažiran inženiring.
  • V naslednjih 30 minutah je bila sočasno z odpravljanjem težave izvedena vrsta korakov, s katerimi smo poskušali zmanjšati vpliv na stranke in pospešiti ublažitev. To je vključevalo proaktivno razširjanje nekaterih storitev Azure AD za obvladovanje pričakovane obremenitve, ko bi bila uvedena ublažitev, in neuspeh pri določenih delovnih obremenitvah na rezervni sistem za preverjanje pristnosti Azure AD.
  • Ob 22:02 UTC smo ugotovili glavni vzrok, začeli sanacijo in sprožili naše avtomatizirane mehanizme za povrnitev.
  • Samodejni povrnitev ni uspela zaradi poškodovanja metapodatkov SDP. Ob 22:47 UTC smo začeli postopek ročne posodobitve konfiguracije storitve, ki obide sistem SDP, in celotno operacijo zaključili do 23:59 UTC.
  • Do 00:23 UTC se je dovolj primerkov zaledne storitve vrnilo v zdravo stanje, da bi dosegli normalne operativne parametre storitve.
  • Vsi primeri storitev s preostalim vplivom so bili odkriti do 02:25 UTC.

Naslednji koraki: Za prizadete stranke se iskreno opravičujemo za vpliv. Nenehno izvajamo korake za izboljšanje platforme Microsoft Azure in naših procesov, da preprečimo, da bi se takšni incidenti v prihodnosti zgodili. V tem primeru to vključuje (vendar ni omejeno na) naslednje:

Mi smo že zaključili

  • Odpravljena je skrita napaka kode v sistemu SDP v zaledju Azure AD.
  • Popravljen obstoječi sistem povrnitve, ki omogoča obnovitev zadnjih znano dobrih metapodatkov za zaščito pred korupcijo.
  • Razširite obseg in pogostost vaj za povrnitev.

Preostali koraki vključujejo

  • Uporabite dodatne zaščite za sistem SDP v zaledju storitve Azure AD, da preprečite vrsto težav, ki so bile ugotovljene tukaj.
  • Pospešite uvedbo sistema za preverjanje pristnosti varnostnega kopiranja Azure AD za vse ključne storitve kot glavno prednostno nalogo, da bi znatno zmanjšali vpliv podobne vrste težave v prihodnosti.
  • Vgrajeni scenariji Azure AD v avtomatizirani komunikacijski cevovod, ki objavi začetno komunikacijo prizadetim strankam v 15 minutah po vplivu.

Pošljite povratne informacije: Pomagajte nam izboljšati izkušnjo komuniciranja s strankami Azure tako, da izpolnite našo anketo: 

preko ZDNet

Pustite Odgovori

Vaš e-naslov ne bo objavljen. Obvezna polja so označena *