Microsoft는 이번 주의 주요 Microsoft 365 로그인 문제에 대한 근본 원인 분석을 게시했습니다.

독서 시간 아이콘 6 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

이번 주에는 Microsoft 5에 대해 거의 365시간의 긴 다운타임이 있었습니다. 사용자가 OneDrive 및 Microsoft Teams를 포함한 여러 서비스에 로그인할 수 없는 경우.

오늘 Microsoft는 문제의 근본 원인 분석을 게시했습니다., Microsoft는 내부 유효성 검사 테스트 링을 대상으로 하는 서비스 업데이트로 인한 것이지만 Azure AD 백엔드 서비스 SDP(안전 배포 프로세스) 시스템의 잠재적인 코드 결함으로 인해 대신 Microsoft의 프로덕션 환경에 직접 배포되었다고 말합니다.

Microsoft는 21년 25월 28일 약 2020:00 UTC에서 23년 29월 2020일 2:25 UTC 사이에 고객이 Azure Active Directory(Azure AD ) 인증을 위해. 이 문제는 다음날 XNUMX:XNUMX까지만 완전히 완화되었습니다.

미국과 호주는 가장 큰 타격을 받았으며 미국 사용자의 17%만이 성공적으로 로그인할 수 있었습니다.

Microsoft가 배포 메타데이터를 손상시키는 SDP 시스템의 잠재적인 결함으로 인해 업데이트를 롤백할 수 없기 때문에 문제가 더 복잡해졌습니다. 즉, 업데이트를 수동으로 롤백해야 했습니다.

Microsoft는 영향을 받은 고객에게 사과하고 앞으로 이러한 사고가 발생하지 않도록 Microsoft Azure 플랫폼 및 해당 프로세스를 개선하기 위한 조치를 계속 취하고 있다고 밝혔습니다. 계획된 단계 중 하나에는 식별된 문제 클래스를 방지하기 위해 Azure AD 서비스 백엔드 SDP 시스템에 추가 보호를 적용하는 것이 포함됩니다.

아래에서 전체 분석을 읽으십시오.

RCA – 여러 Microsoft 서비스 및 Azure Active Directory 통합 애플리케이션에 대한 인증 오류(추적 ID SM79-F88)

영향 요약: 21년 25월 28일 약 2020:00 UTC에서 23년 29월 2020일 2:XNUMX UTC 사이에 고객은 Azure Active Directory(Azure AD)에 의존하는 모든 Microsoft 및 타사 애플리케이션 및 서비스에 대한 인증 작업을 수행하는 동안 오류가 발생했을 수 있습니다. 인증을 위해. 인증을 위해 Azure AD BXNUMXC를 사용하는 애플리케이션도 영향을 받았습니다.

Azure AD를 사용하여 클라우드 서비스에 대해 아직 인증되지 않은 사용자는 문제가 발생할 가능성이 더 높았고 아래에 표시된 평균 가용성 수치에 해당하는 여러 인증 요청 실패를 보았을 수 있습니다. 이는 다양한 고객과 워크로드에 걸쳐 집계되었습니다.

  • 유럽: 사고 기간 동안 81%의 성공률.
  • 미주: 사고 기간 동안 17%의 성공률, 완화 직전에 37%로 개선됨.
  • 아시아: 사건의 처음 72분 동안 120%의 성공률. 업무 시간 피크 트래픽이 시작되면서 가용성은 최저 32%로 떨어졌습니다.
  • 호주: 사고 기간 동안 37%의 성공률.

서비스는 00년 23월 29일 2020:02 UTC까지 대부분의 고객에 대해 정상 작동 가용성으로 복원되었지만 UTC 25:XNUMX UTC까지 고객에게 영향을 줄 수 있는 간헐적인 인증 요청 실패를 관찰했습니다.

영향 시작 시간 이전에 인증한 사용자는 액세스하는 애플리케이션 또는 서비스에 따라 문제가 발생할 가능성이 적습니다.

복원력은 사고 기간 동안 평균 99.8%의 가용성으로 Virtual Machines, Virtual Machine Scale Sets 및 Azure Kubernetes Services에 대한 보호된 관리 ID 서비스를 측정합니다.

근본 원인: 28월 21일 25:XNUMX UTC에 내부 유효성 검사 테스트 링을 대상으로 하는 서비스 업데이트가 배포되어 Azure AD 백엔드 서비스에서 시작 시 충돌이 발생했습니다. Azure AD 백 엔드 서비스 SDP(안전 배포 프로세스) 시스템의 잠재적인 코드 결함으로 인해 정상적인 유효성 검사 프로세스를 우회하여 프로덕션 환경에 직접 배포되었습니다.

Azure AD는 격리 경계로 구축된 전 세계 여러 데이터 센터에 걸쳐 여러 파티션이 있는 활성-활성 구성으로 배포된 지리적 분산 서비스로 설계되었습니다. 일반적으로 변경 사항은 처음에 고객 데이터가 포함되지 않은 유효성 검사 링을 대상으로 한 다음 Microsoft 전용 사용자를 포함하는 내부 링, 마지막으로 프로덕션 환경을 대상으로 합니다. 이러한 변경 사항은 며칠에 걸쳐 XNUMX개의 링에 걸쳐 단계적으로 배포됩니다.

이 경우 SDP 시스템은 배포 메타데이터를 해석하는 시스템의 기능에 영향을 미친 잠재적인 결함으로 인해 유효성 검사 테스트 링을 올바르게 대상으로 지정하지 못했습니다. 결과적으로 모든 링이 동시에 대상이 되었습니다. 잘못된 배포로 인해 서비스 가용성이 저하되었습니다.

영향을 받은 후 몇 분 이내에 우리는 일반적으로 영향의 기간과 심각성을 제한하는 자동화된 롤백 시스템을 사용하여 변경 사항을 되돌리기 위한 조치를 취했습니다. 그러나 SDP 시스템의 잠재적인 결함으로 인해 배포 메타데이터가 손상되어 수동 롤백 프로세스에 의존해야 했습니다. 이로 인해 문제를 완화하는 데 걸리는 시간이 크게 늘어났습니다.

완화: 모니터링 결과 초기 영향이 발생한 후 몇 분 이내에 서비스 저하가 감지되었으며 즉시 문제 해결에 착수했습니다. 다음과 같은 완화 활동이 수행되었습니다.

  • 영향은 UTC 21시 25분에 시작되었으며 5분 이내에 모니터링 결과 비정상 상태가 감지되고 엔지니어링이 즉시 시작되었습니다.
  • 다음 30분 동안 문제 해결과 동시에 고객 영향을 최소화하고 완화를 촉진하기 위한 일련의 단계가 수행되었습니다. 여기에는 완화가 적용된 후 예상 부하를 처리하기 위해 일부 Azure AD 서비스를 사전에 확장하고 특정 워크로드를 백업 Azure AD 인증 시스템으로 장애 조치하는 것이 포함되었습니다.
  • UTC 22:02에 근본 원인을 확인하고 문제 해결을 시작했으며 자동화된 롤백 메커니즘을 시작했습니다.
  • SDP 메타데이터 손상으로 인해 자동 롤백에 실패했습니다. 22:47 UTC에 SDP 시스템을 우회하는 서비스 구성을 수동으로 업데이트하는 프로세스를 시작했으며 전체 작업은 23:59 UTC까지 완료되었습니다.
  • 00:23 UTC까지 백엔드 서비스 인스턴스가 정상적인 서비스 운영 매개변수에 도달할 수 있는 정상 상태로 돌아갑니다.
  • 잔여 영향이 있는 모든 서비스 인스턴스는 UTC 02:25까지 복구되었습니다.

다음 단계 : 피해를 입은 고객님께 진심으로 사과드립니다. Microsoft는 Microsoft Azure 플랫폼과 프로세스를 개선하여 향후 이러한 사고가 발생하지 않도록 지속적으로 조치를 취하고 있습니다. 이 경우 여기에는 다음이 포함됩니다(단, 이에 국한되지 않음).

우리는 이미 완료했습니다

  • Azure AD 백엔드 SDP 시스템의 잠재 코드 결함을 수정했습니다.
  • 손상을 방지하기 위해 마지막으로 성공한 메타데이터를 복원할 수 있도록 기존 롤백 시스템을 수정했습니다.
  • 롤백 작업 훈련의 범위와 빈도를 확장합니다.

나머지 단계에는 다음이 포함됩니다.

  • Azure AD 서비스 백엔드 SDP 시스템에 추가 보호를 적용하여 여기에서 식별된 문제 클래스를 방지하세요.
  • 향후 유사한 유형의 문제의 영향을 크게 줄이기 위해 최우선 순위로 모든 주요 서비스에 대한 Azure AD 백업 인증 시스템의 롤아웃을 가속화합니다.
  • 영향을 받은 고객에게 영향을 받은 후 15분 이내에 초기 커뮤니케이션을 게시하는 자동화된 커뮤니케이션 파이프라인에 Azure AD 시나리오를 온보딩합니다.

피드백을 제공하다: 설문 조사에 참여하여 Azure 고객 커뮤니케이션 환경을 개선하는 데 도움을 주세요. 

를 통해

댓글을 남겨주세요.

귀하의 이메일 주소는 공개되지 않습니다. *표시항목은 꼭 기재해 주세요. *