Microsoft, bu haftanın büyük Microsoft 365 oturum açma sorunlarının temel neden analizini yayınladı

Okuma zamanı simgesi 6 dk. okuman


Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz. Araç İpucu Simgesi

MSPoweruser'ın editör ekibini ayakta tutmasına nasıl yardımcı olabileceğinizi öğrenmek için açıklama sayfamızı okuyun. Daha fazla

Bu hafta Microsoft 5 için yaklaşık 365 saatlik bir kapalı kalma süresi yaşadık. OneDrive ve Microsoft Teams dahil olmak üzere birden çok hizmette oturum açamayan kullanıcılarla.

Bugün Microsoft, sorunun temel neden analizini yayınladıMicrosoft'un söylediğine göre, bir iç doğrulama test halkasını hedeflemesi amaçlanan ancak bunun yerine Azure AD arka uç hizmeti Güvenli Dağıtım Süreci (SDP) sistemindeki gizli bir kod hatası nedeniyle doğrudan Microsoft'un üretim ortamına dağıtılan hizmet güncellemesinden kaynaklandı.

Microsoft, 21 Eylül 25'de yaklaşık 28:2020 UTC ile 00 Eylül 23'de 29:2020 UTC arasında, müşterilerin Azure Active Directory'ye (Azure AD) bağlı olan tüm Microsoft ve üçüncü taraf uygulamalar ve hizmetler için kimlik doğrulama işlemleri gerçekleştirirken hatalarla karşılaştığını söylüyor. ) kimlik doğrulama için. Sorun, yalnızca ertesi gün 2:25'e kadar herkes için tamamen hafifletildi.

ABD ve Avustralya, ABD'deki kullanıcıların yalnızca %17'sinin başarıyla oturum açabilmesiyle en çok etkilenen ülkeler oldu.

Sorun, Microsoft'un SDP sistemlerindeki dağıtım meta verilerini bozan gizli kusur nedeniyle güncellemeyi geri alamaması, yani güncellemenin manuel olarak geri alınması gerektiği anlamına geliyordu.

Microsoft, etkilenen müşterilerden özür diledi ve gelecekte bu tür olayların meydana gelmemesini sağlamaya yardımcı olmak için Microsoft Azure Platformunu ve süreçlerini iyileştirmek için adımlar atmaya devam ettiklerini söyledi. Planlanan adımlardan biri, tanımlanan sorun sınıfını önlemek için Azure AD hizmeti arka uç SDP sistemine ek korumalar uygulamayı içerir.

Aşağıdaki tam analizi okuyun:

RCA – Birden çok Microsoft hizmetinde ve Azure Active Directory tümleşik uygulamalarda kimlik doğrulama hataları (İzleme Kimliği SM79-F88)

Etki Özeti: 21 Eylül 25 yaklaşık 28:2020 UTC ile 00 Eylül 23 29:2020 UTC arasında müşteriler, Azure Active Directory'ye (Azure AD) bağlı tüm Microsoft ve üçüncü taraf uygulamalar ve hizmetler için kimlik doğrulama işlemleri gerçekleştirirken hatalarla karşılaşmış olabilir. kimlik doğrulama için. Kimlik doğrulama için Azure AD B2C kullanan uygulamalar da etkilendi.

Azure AD kullanarak bulut hizmetlerinde kimliği henüz doğrulanmamış kullanıcıların sorun yaşama olasılığı daha yüksekti ve aşağıda gösterilen ortalama kullanılabilirlik sayılarına karşılık gelen birden çok kimlik doğrulama isteği hatası görmüş olabilir. Bunlar, farklı müşteriler ve iş yükleri arasında toplanmıştır.

  • Avrupa: Olay süresince %81 başarı oranı.
  • Amerika Kıtası: Olay süresince %17 başarı oranı, hafifletmeden hemen önce %37'ye yükseldi.
  • Asya: Olayın ilk 72 dakikasında %120 başarı oranı. İş saatlerinde en yoğun trafik başladığında, kullanılabilirlik en düşük seviyesinde %32'ye düştü.
  • Avustralya: Olay süresince %37 başarı oranı.

Hizmet, müşterilerin çoğunluğu için 00 Eylül 23 29:2020 UTC'ye kadar normal operasyonel kullanılabilirliğe döndürüldü, ancak, 02:25 UTC'ye kadar müşterileri etkilemiş olabilecek, seyrek olarak kimlik doğrulama isteği hataları gözlemledik.

Etki başlangıç ​​zamanından önce kimlik doğrulaması yapan kullanıcıların, eriştikleri uygulamalara veya hizmetlere bağlı olarak sorun yaşama olasılığı daha düşüktü.

Esneklik önlemleri, olay süresi boyunca ortalama %99.8 kullanılabilirlik ile Sanal Makineler, Sanal Makine Ölçek Kümeleri ve Azure Kubernetes Hizmetleri için Yönetilen Kimlikler hizmetlerini yerinde korur.

Ana neden: 28 Eylül 21:25 UTC'de, bir iç doğrulama test halkasını hedefleyen bir hizmet güncelleştirmesi dağıtıldı ve Azure AD arka uç hizmetlerinde başlatma sırasında kilitlenmeye neden oldu. Azure AD arka uç hizmeti Güvenli Dağıtım Süreci (SDP) sistemindeki gizli bir kod hatası, bunun normal doğrulama sürecimizi atlayarak doğrudan üretim ortamımıza dağıtılmasına neden oldu.

Azure AD, dünya çapında birden çok veri merkezinde birden çok bölümle, yalıtım sınırlarıyla oluşturulmuş, etkin-etkin bir yapılandırmada dağıtılan, coğrafi olarak dağıtılmış bir hizmet olacak şekilde tasarlanmıştır. Normalde, değişiklikler başlangıçta müşteri verisi içermeyen bir doğrulama halkasını, ardından yalnızca Microsoft kullanıcılarını içeren bir iç halkayı ve son olarak da üretim ortamımızı hedefler. Bu değişiklikler, birkaç gün içinde beş halkada aşamalı olarak dağıtılır.

Bu durumda, SDP sistemi, sistemin dağıtım meta verilerini yorumlama yeteneğini etkileyen gizli bir kusur nedeniyle doğrulama testi halkasını doğru şekilde hedefleyemedi. Sonuç olarak, tüm halkalar aynı anda hedeflendi. Yanlış dağıtım, hizmet kullanılabilirliğinin düşmesine neden oldu.

Etkiden birkaç dakika sonra, normalde etkinin süresini ve şiddetini sınırlayacak olan otomatik geri alma sistemlerini kullanarak değişikliği geri almak için adımlar attık. Ancak, SDP sistemimizdeki gizli kusur, dağıtım meta verilerini bozmuştu ve manuel geri alma işlemlerine başvurmak zorunda kaldık. Bu, sorunu hafifletme süresini önemli ölçüde uzattı.

Azaltma: İzlememiz, hizmetteki bozulmayı ilk etkiden birkaç dakika sonra tespit etti ve hemen sorun gidermeyi başlatmak için harekete geçtik. Aşağıdaki etki azaltma faaliyetleri gerçekleştirilmiştir:

  • Etki, 21:25 UTC'de başladı ve 5 dakika içinde izlememiz sağlıksız bir durum tespit etti ve mühendislik hemen devreye girdi.
  • Sonraki 30 dakika içinde, sorunun giderilmesiyle eşzamanlı olarak, müşteri etkisini en aza indirmeye ve hafifletmeyi hızlandırmaya çalışmak için bir dizi adım atıldı. Bu, bir azaltma uygulandıktan sonra beklenen yükü işlemek için Azure AD hizmetlerinden bazılarının proaktif olarak ölçeklendirilmesini ve belirli iş yüklerinin yedek bir Azure AD Kimlik Doğrulama sistemine devredilmesini içeriyordu.
  • 22:02 UTC'de temel nedeni belirledik, düzeltmeye başladık ve otomatik geri alma mekanizmalarımızı başlattık.
  • SDP meta verilerinin bozulması nedeniyle otomatik geri alma başarısız oldu. 22:47 UTC'de, SDP sistemini atlayan hizmet yapılandırmasını manuel olarak güncelleme sürecini başlattık ve tüm işlem 23:59 UTC'ye kadar tamamlandı.
  • 00:23 UTC'ye kadar, normal hizmet operasyonel parametrelerine ulaşmak için yeterli arka uç hizmet örneği sağlıklı bir duruma döndürüldü.
  • Artık etkisi olan tüm hizmet örnekleri 02:25 UTC'ye kadar kurtarıldı.

Sonraki Adımlar: Etkilenen müşteriler üzerindeki etki için içtenlikle özür dileriz. Gelecekte bu tür olayların meydana gelmemesini sağlamaya yardımcı olmak için Microsoft Azure Platformunu ve süreçlerimizi iyileştirmek için sürekli adımlar atıyoruz. Bu durumda, aşağıdakileri içerir (ancak bunlarla sınırlı değildir):

biz zaten tamamladık

  • Azure AD arka uç SDP sistemindeki gizli kod hatası düzeltildi.
  • Yolsuzluğa karşı koruma sağlamak için bilinen son iyi meta verilerin geri yüklenmesine izin vermek için mevcut geri alma sistemi düzeltildi.
  • Geri alma işlemi tatbikatlarının kapsamını ve sıklığını genişletin.

Kalan adımlar şunları içerir:

  • Burada tanımlanan sorun sınıfını önlemek için Azure AD hizmeti arka uç SDP sistemine ek korumalar uygulayın.
  • Gelecekte benzer türde bir sorunun etkisini önemli ölçüde azaltmak için Azure AD yedekleme kimlik doğrulama sisteminin tüm önemli hizmetlere dağıtımını en yüksek öncelik olarak hızlandırın.
  • Etkilendikten sonra 15 dakika içinde etkilenen müşterilere ilk iletişimi gönderen otomatik iletişim hattına Azure AD senaryoları ekleyin.

Geribildirim sağlamak: Lütfen anketimize katılarak Azure müşteri iletişim deneyimini iyileştirmemize yardımcı olun: 

üzerinden ZDNet

Yorum bırak

E-posta hesabınız yayımlanmayacak. Gerekli alanlar işaretlenmişlerdir. *