Firma Microsoft publikuje wstępną analizę głównych przyczyn wczorajszej poważnej awarii platformy Microsoft 365

Ikona czasu czytania 2 minuta. czytać


Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków. Ikona podpowiedzi

Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej

Wymiana serweru

Wczoraj Usługi chmurowe Microsoftu uległy poważnej awarii które firma Microsoft przypisała niemożności wykonywania operacji uwierzytelniania w dowolnych aplikacjach firmy Microsoft i innych firm, które są zależne od usługi Azure Active Directory (Azure AD) do uwierzytelniania.

Emisja trwała w sumie bezprecedensowe 14 godzin i spowodowała zepsucie dnia pracy wielu firmom.

Dzisiaj Microsoft opublikował wstępną analizę przyczyn źródłowych, w której obwiniono błąd, który wystąpił w rotacji kluczy używanych do obsługi używania OpenID przez usługę Azure AD i innych standardowych protokołów Identity do operacji podpisywania kryptograficznego.

Microsoft twierdzi, że w ramach standardowej higieny bezpieczeństwa zautomatyzowany system, zgodnie z harmonogramem opartym na czasie, usuwa klucze, które nie są już używane. W ciągu ostatnich kilku tygodni określony klucz został oznaczony jako „zachowaj” dłużej niż zwykle, aby obsługiwać złożoną migrację między chmurami. To ujawniło błąd, w którym automatyzacja nieprawidłowo zignorowała ten stan „zachowania”, co doprowadziło do usunięcia tego konkretnego klucza.

Metadane dotyczące kluczy podpisywania są publikowane przez usługę Azure AD w lokalizacji globalnej zgodnie ze standardowymi protokołami Internet Identity. Po zmianie metadanych publicznych o godzinie 19:00 czasu UTC aplikacje korzystające z tych protokołów z usługą Azure AD zaczęły pobierać nowe metadane i przestały ufać tokenom/potwierdzeniom podpisanym za pomocą usuniętego klucza. W tym momencie użytkownicy końcowi nie mieli już dostępu do tych aplikacji.

Rozwiązanie było proste. Jako przyczynę zidentyfikowano operację usunięcia klucza, a metadane klucza zostały przywrócone do poprzedniego stanu o godzinie 21:05 UTC. Niestety podzbiór zasobów pamięci masowej doznał szczątkowego wpływu z powodu przechowywanych w pamięci podręcznej metadanych, a firma Microsoft musiała wypchnąć aktualizację, aby unieważnić te wpisy i wymusić odświeżenie. Proces ten został zakończony, a łagodzenie skutków dla klientów, na które miał on wpływ rezydualny, zostało ogłoszone o 09:25 UTC.

Microsoft twierdzi, że ma wdrożone procesy zapobiegające tej klasie zagrożeń, ale chociaż zapewnia już ochronę przed dodaniem nowego klucza, usuwanie kluczowego komponentu ma zostać zakończone dopiero w połowie roku.

Firma Microsoft przeprosiła za ten problem i twierdzi, że stale podejmuje kroki w celu ulepszenia platformy Microsoft Azure i jej procesów, aby zapewnić, że takie incydenty nie wystąpią w przyszłości.

Pełna analiza przyczyn źródłowych dotycząca tego incydentu jest nadal w toku i zostanie opublikowana po jej zakończeniu lub jeśli w międzyczasie pojawią się jakiekolwiek inne istotne szczegóły.

Przeczytaj wszystkie szczegóły w firmie Microsoft tutaj.

przez ZDNet

Więcej na tematy: lazur, Microsoft