Microsoft memposting analisis akar masalah untuk masalah login Microsoft 365 yang besar minggu ini

Ikon waktu membaca 6 menit Baca


Pembaca membantu dukungan MSpoweruser. Kami mungkin mendapat komisi jika Anda membeli melalui tautan kami. Ikon Keterangan Alat

Baca halaman pengungkapan kami untuk mengetahui bagaimana Anda dapat membantu MSPoweruser mempertahankan tim editorial Baca lebih lanjut

Minggu ini kami mengalami waktu henti hampir 5 jam untuk Microsoft 365, dengan pengguna yang tidak dapat masuk ke beberapa layanan, termasuk OneDrive dan Microsoft Teams.

Hari ini Microsoft menerbitkan analisis akar penyebab masalah ini, yang menurut Microsoft disebabkan oleh pembaruan layanan yang dimaksudkan untuk menargetkan cincin uji validasi internal tetapi yang disebarkan langsung ke lingkungan produksi Microsoft karena cacat kode laten dalam sistem Safe Deployment Process (SDP) layanan backend Azure AD.

Microsoft mengatakan bahwa antara sekitar 21:25 UTC pada 28 September 2020 dan 00:23 UTC pada 29 September 2020, pelanggan mengalami kesalahan saat melakukan operasi otentikasi untuk semua aplikasi dan layanan Microsoft dan pihak ketiga yang bergantung pada Azure Active Directory (Azure AD ) untuk otentikasi. Masalah ini hanya sepenuhnya dikurangi untuk semua pada 2:25 hari berikutnya.

AS dan Australia adalah yang paling terpukul, dengan hanya 17% pengguna di AS yang berhasil masuk.

Masalah ini diperparah oleh Microsoft yang tidak dapat mengembalikan pembaruan karena cacat laten dalam sistem SDP mereka yang merusak metadata penyebaran, yang berarti pembaruan harus dibatalkan secara manual.

Microsoft meminta maaf kepada pelanggan yang terkena dampak dan mengatakan mereka terus mengambil langkah-langkah untuk meningkatkan Microsoft Azure Platform dan proses mereka untuk membantu memastikan insiden seperti itu tidak terjadi di masa depan. Salah satu langkah yang direncanakan termasuk menerapkan perlindungan tambahan ke sistem SDP backend layanan Azure AD untuk mencegah kelas masalah yang diidentifikasi.

Baca analisis lengkapnya di bawah ini:

RCA – Kesalahan otentikasi di beberapa layanan Microsoft dan aplikasi terintegrasi Azure Active Directory (ID Pelacakan SM79-F88)

Ringkasan Dampak: Antara sekitar 21:25 UTC pada 28 September 2020 dan 00:23 UTC pada 29 September 2020, pelanggan mungkin mengalami kesalahan saat melakukan operasi otentikasi untuk semua aplikasi dan layanan Microsoft dan pihak ketiga yang bergantung pada Azure Active Directory (Azure AD) untuk otentikasi. Aplikasi yang menggunakan Azure AD B2C untuk otentikasi juga terpengaruh.

Pengguna yang belum diautentikasi ke layanan cloud menggunakan Azure AD lebih mungkin mengalami masalah dan mungkin telah melihat beberapa permintaan autentikasi yang gagal sesuai dengan rata-rata angka ketersediaan yang ditunjukkan di bawah ini. Ini telah dikumpulkan di berbagai pelanggan dan beban kerja.

  • Eropa: 81% tingkat keberhasilan selama insiden.
  • Amerika: Tingkat keberhasilan 17% selama durasi insiden, meningkat menjadi 37% sesaat sebelum mitigasi.
  • Asia: 72% tingkat keberhasilan dalam 120 menit pertama insiden. Saat lalu lintas puncak jam kerja dimulai, ketersediaan turun menjadi 32% pada titik terendah.
  • Australia: tingkat keberhasilan 37% selama durasi insiden.

Layanan dipulihkan ke ketersediaan operasional normal untuk sebagian besar pelanggan pada 00:23 UTC pada 29 September 2020, namun, kami mengamati kegagalan permintaan autentikasi yang jarang terjadi yang mungkin berdampak pada pelanggan hingga 02:25 UTC.

Pengguna yang telah mengautentikasi sebelum waktu mulai dampak cenderung tidak mengalami masalah tergantung pada aplikasi atau layanan yang mereka akses.

Tindakan ketahanan di tempat yang dilindungi Layanan Identitas Terkelola untuk Mesin Virtual, Kumpulan Skala Mesin Virtual, dan Layanan Azure Kubernetes dengan ketersediaan rata-rata 99.8% selama durasi insiden.

Akar masalah: Pada tanggal 28 September pukul 21:25 UTC, pemutakhiran layanan yang menargetkan cincin uji validasi internal disebarkan, menyebabkan lumpuh saat memulai di layanan backend Azure AD. Cacat kode laten dalam sistem Safe Deployment Process (SDP) layanan backend Azure AD menyebabkan ini menyebar langsung ke lingkungan produksi kami, melewati proses validasi normal kami.

Azure AD dirancang untuk menjadi layanan terdistribusi geografis yang digunakan dalam konfigurasi aktif-aktif dengan banyak partisi di beberapa pusat data di seluruh dunia, yang dibangun dengan batasan isolasi. Biasanya, perubahan awalnya menargetkan cincin validasi yang tidak berisi data pelanggan, diikuti oleh lingkaran dalam yang berisi pengguna Microsoft saja, dan terakhir lingkungan produksi kami. Perubahan ini diterapkan secara bertahap di lima dering selama beberapa hari.

Dalam kasus ini, sistem SDP gagal menargetkan cincin uji validasi dengan benar karena cacat laten yang memengaruhi kemampuan sistem untuk menafsirkan metadata penerapan. Akibatnya, semua cincin ditargetkan secara bersamaan. Penyebaran yang salah menyebabkan ketersediaan layanan menurun.

Dalam beberapa menit setelah dampak, kami mengambil langkah untuk mengembalikan perubahan menggunakan sistem rollback otomatis yang biasanya akan membatasi durasi dan tingkat keparahan dampak. Namun, cacat laten dalam sistem SDP kami telah merusak metadata penerapan, dan kami harus menggunakan proses rollback manual. Ini secara signifikan memperpanjang waktu untuk mengurangi masalah.

Mitigasi: Pemantauan kami mendeteksi penurunan layanan dalam beberapa menit setelah dampak awal, dan kami segera terlibat untuk memulai pemecahan masalah. Kegiatan mitigasi yang dilakukan adalah sebagai berikut:

  • Dampaknya dimulai pada 21:25 UTC, dan dalam 5 menit pemantauan kami mendeteksi kondisi yang tidak sehat dan rekayasa segera dilakukan.
  • Selama 30 menit berikutnya, bersamaan dengan pemecahan masalah, serangkaian langkah dilakukan untuk mencoba meminimalkan dampak pelanggan dan mempercepat mitigasi. Ini termasuk secara proaktif menskalakan beberapa layanan Azure AD untuk menangani beban yang diantisipasi setelah mitigasi akan diterapkan dan gagal pada beban kerja tertentu ke sistem Autentikasi Azure AD cadangan.
  • Pada 22:02 UTC, kami menetapkan penyebab utama, memulai perbaikan, dan memulai mekanisme rollback otomatis kami.
  • Rollback otomatis gagal karena kerusakan pada metadata SDP. Pada pukul 22:47 UTC, kami memulai proses untuk memperbarui konfigurasi layanan secara manual yang melewati sistem SDP, dan seluruh operasi selesai pada pukul 23:59 UTC.
  • Pada 00:23 UTC, instans layanan backend yang cukup kembali ke status sehat untuk mencapai parameter operasional layanan normal.
  • Semua instans layanan dengan dampak sisa dipulihkan pada 02:25 UTC.

Langkah berikutnya: Kami dengan tulus meminta maaf atas dampaknya terhadap pelanggan yang terkena dampak. Kami terus mengambil langkah-langkah untuk meningkatkan Platform Microsoft Azure dan proses kami untuk membantu memastikan insiden seperti itu tidak terjadi di masa mendatang. Dalam hal ini, ini termasuk (tetapi tidak terbatas pada) hal-hal berikut:

Kami telah menyelesaikan

  • Memperbaiki cacat kode laten di sistem SDP backend Azure AD.
  • Memperbaiki sistem rollback yang ada untuk memungkinkan pemulihan metadata baik terakhir yang diketahui untuk melindungi dari korupsi.
  • Perluas cakupan dan frekuensi latihan operasi rollback.

Langkah-langkah yang tersisa termasuk

  • Terapkan perlindungan tambahan ke sistem SDP backend layanan Azure AD untuk mencegah kelas masalah yang diidentifikasi di sini.
  • Percepat peluncuran sistem otentikasi cadangan Azure AD ke semua layanan utama sebagai prioritas utama untuk secara signifikan mengurangi dampak jenis masalah serupa di masa mendatang.
  • Skenario Azure AD yang terpasang ke saluran komunikasi otomatis yang memposting komunikasi awal ke pelanggan yang terpengaruh dalam waktu 15 menit setelah dampak.

Berikan umpan balik: Harap bantu kami meningkatkan pengalaman komunikasi pelanggan Azure dengan mengikuti survei kami: 

melalui ZDNet

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *