Microsoft đăng bản phân tích nguyên nhân cốt lõi cho các sự cố đăng nhập Microsoft 365 lớn trong tuần này

Biểu tượng thời gian đọc 6 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

Tuần này, chúng tôi đã có khoảng thời gian ngừng hoạt động kéo dài gần 5 giờ đối với Microsoft 365, với việc người dùng không thể đăng nhập vào nhiều dịch vụ, bao gồm OneDrive và Microsoft Teams.

Hôm nay Microsoft đã xuất bản phân tích nguyên nhân gốc rễ của vấn đề, mà Microsoft cho biết là do bản cập nhật dịch vụ nhằm mục tiêu vòng kiểm tra xác thực nội bộ nhưng thay vào đó nó được triển khai trực tiếp vào môi trường sản xuất của Microsoft do lỗi mã tiềm ẩn trong hệ thống Quy trình triển khai an toàn (SDP) của dịch vụ phụ trợ Azure AD.

Microsoft cho biết trong khoảng từ 21:25 UTC ngày 28 tháng 2020 năm 00 đến 23:29 UTC ngày 2020 tháng 2 năm 25, khách hàng gặp lỗi khi thực hiện các thao tác xác thực cho tất cả các ứng dụng và dịch vụ của Microsoft và bên thứ ba phụ thuộc vào Azure Active Directory (Azure AD ) để xác thực. Vấn đề chỉ được giảm nhẹ hoàn toàn vào lúc XNUMX:XNUMX ngày hôm sau.

Hoa Kỳ và Úc bị ảnh hưởng nặng nề nhất, với chỉ 17% người dùng ở Hoa Kỳ có thể đăng nhập thành công.

Vấn đề còn do Microsoft không thể khôi phục bản cập nhật do lỗi tiềm ẩn trong hệ thống SDP của họ làm hỏng siêu dữ liệu triển khai, có nghĩa là bản cập nhật phải được khôi phục theo cách thủ công.

Microsoft đã xin lỗi những khách hàng bị ảnh hưởng và cho biết họ đang tiếp tục thực hiện các bước để cải thiện Nền tảng Microsoft Azure và các quy trình của họ để giúp đảm bảo những sự cố như vậy không xảy ra trong tương lai. Một trong những bước đã lên kế hoạch bao gồm áp dụng các biện pháp bảo vệ bổ sung cho hệ thống SDP phụ trợ dịch vụ Azure AD để ngăn chặn loại vấn đề đã được xác định.

Đọc phân tích đầy đủ bên dưới:

RCA - Lỗi xác thực trên nhiều dịch vụ của Microsoft và các ứng dụng tích hợp Azure Active Directory (ID theo dõi SM79-F88)

Tóm tắt tác động: Trong khoảng thời gian từ khoảng 21:25 UTC vào ngày 28 tháng 2020 năm 00 đến 23:29 UTC vào ngày 2020 tháng 2 năm XNUMX, khách hàng có thể gặp lỗi khi thực hiện các thao tác xác thực cho tất cả các ứng dụng và dịch vụ của Microsoft và bên thứ ba phụ thuộc vào Azure Active Directory (Azure AD) để xác thực. Các ứng dụng sử dụng Azure AD BXNUMXC để xác thực cũng bị ảnh hưởng.

Những người dùng chưa được xác thực với các dịch vụ đám mây bằng Azure AD có nhiều khả năng gặp sự cố hơn và có thể gặp nhiều lần yêu cầu xác thực không thành công tương ứng với số lượng khả dụng trung bình được hiển thị bên dưới. Chúng đã được tổng hợp giữa các khách hàng và khối lượng công việc khác nhau.

  • Châu Âu: Tỷ lệ thành công 81% trong suốt thời gian xảy ra sự cố.
  • Châu Mỹ: Tỷ lệ thành công 17% trong suốt thời gian xảy ra sự cố, cải thiện lên 37% ngay trước khi giảm thiểu.
  • Châu Á: Tỉ lệ thành công 72% trong 120 phút đầu sự cố. Khi lưu lượng truy cập cao điểm trong giờ làm việc bắt đầu, tính khả dụng đã giảm xuống mức thấp nhất là 32%.
  • Úc: Tỷ lệ thành công 37% trong suốt thời gian xảy ra sự cố.

Dịch vụ đã được khôi phục về trạng thái khả dụng hoạt động bình thường cho đa số khách hàng trước 00:23 UTC vào ngày 29 tháng 2020 năm 02, tuy nhiên, chúng tôi nhận thấy các lỗi yêu cầu xác thực không thường xuyên có thể ảnh hưởng đến khách hàng cho đến 25:XNUMX UTC.

Người dùng đã xác thực trước thời điểm bắt đầu tác động ít có khả năng gặp sự cố hơn tùy thuộc vào ứng dụng hoặc dịch vụ mà họ đang truy cập.

Các biện pháp về khả năng phục hồi tại chỗ các dịch vụ Nhận dạng được quản lý được bảo vệ cho Máy ảo, Bộ quy mô máy ảo và Dịch vụ Azure Kubernetes với mức độ khả dụng trung bình là 99.8% trong suốt thời gian xảy ra sự cố.

Nguyên nhân gốc rễ: Vào ngày 28 tháng 21 lúc 25:XNUMX UTC, một bản cập nhật dịch vụ nhắm mục tiêu vòng kiểm tra xác thực nội bộ đã được triển khai, gây ra sự cố khi khởi động trong các dịch vụ phụ trợ Azure AD. Một lỗi mã tiềm ẩn trong hệ thống Quy trình Triển khai An toàn (SDP) của dịch vụ phụ trợ Azure AD đã khiến điều này triển khai trực tiếp vào môi trường sản xuất của chúng tôi, bỏ qua quy trình xác thực thông thường của chúng tôi.

Azure AD được thiết kế để trở thành một dịch vụ phân phối theo địa lý được triển khai trong cấu hình hoạt động tích cực với nhiều phân vùng trên nhiều trung tâm dữ liệu trên toàn thế giới, được xây dựng với các ranh giới cách ly. Thông thường, các thay đổi ban đầu nhắm mục tiêu đến vòng xác thực không chứa dữ liệu khách hàng, tiếp theo là vòng bên trong chỉ chứa người dùng của Microsoft và cuối cùng là môi trường sản xuất của chúng tôi. Những thay đổi này được triển khai theo từng giai đoạn trên năm vòng trong vài ngày.

Trong trường hợp này, hệ thống SDP không thể nhắm mục tiêu chính xác vòng kiểm tra xác thực do lỗi tiềm ẩn ảnh hưởng đến khả năng diễn giải siêu dữ liệu triển khai của hệ thống. Do đó, tất cả các vòng đều được nhắm mục tiêu đồng thời. Việc triển khai không chính xác khiến tính khả dụng của dịch vụ bị giảm sút.

Trong vòng vài phút sau tác động, chúng tôi đã thực hiện các bước để hoàn nguyên thay đổi bằng cách sử dụng hệ thống hoàn nguyên tự động, hệ thống này thường sẽ giới hạn thời gian và mức độ nghiêm trọng của tác động. Tuy nhiên, lỗi tiềm ẩn trong hệ thống SDP của chúng tôi đã làm hỏng siêu dữ liệu triển khai và chúng tôi phải dùng đến quy trình khôi phục thủ công. Điều này đã kéo dài đáng kể thời gian để giảm thiểu vấn đề.

Giảm nhẹ: Việc giám sát của chúng tôi đã phát hiện ra sự xuống cấp của dịch vụ trong vòng vài phút kể từ tác động ban đầu và chúng tôi đã bắt đầu khắc phục sự cố ngay lập tức. Các hoạt động giảm thiểu sau đây đã được thực hiện:

  • Tác động bắt đầu vào lúc 21:25 UTC và trong vòng 5 phút, quá trình giám sát của chúng tôi đã phát hiện ra một tình trạng không lành mạnh và kỹ thuật đã được thực hiện ngay lập tức.
  • Trong 30 phút tiếp theo, đồng thời với việc khắc phục sự cố, một loạt các bước đã được thực hiện để cố gắng giảm thiểu tác động của khách hàng và đẩy nhanh việc giảm thiểu. Điều này bao gồm việc chủ động mở rộng một số dịch vụ Azure AD để xử lý tải dự kiến ​​sau khi áp dụng biện pháp giảm thiểu và không thực hiện được đối với một số khối lượng công việc nhất định đối với hệ thống Xác thực Azure AD dự phòng.
  • Vào lúc 22:02 UTC, chúng tôi đã xác định nguyên nhân gốc rễ, bắt đầu khắc phục và bắt đầu cơ chế hoàn trả tự động của mình.
  • Hoàn nguyên tự động không thành công do siêu dữ liệu SDP bị hỏng. Vào lúc 22:47 UTC, chúng tôi bắt đầu quá trình cập nhật cấu hình dịch vụ theo cách thủ công bỏ qua hệ thống SDP và toàn bộ hoạt động hoàn tất trước 23:59 UTC.
  • Đến 00:23 UTC, đủ các phiên bản dịch vụ phụ trợ trở lại trạng thái khỏe mạnh để đạt được các thông số hoạt động dịch vụ bình thường.
  • Tất cả các trường hợp dịch vụ có tác động còn lại đã được khôi phục trước 02:25 UTC.

Các bước tiếp theo: Chúng tôi thành thật xin lỗi vì đã ảnh hưởng đến những khách hàng bị ảnh hưởng. Chúng tôi liên tục thực hiện các bước để cải thiện Nền tảng Microsoft Azure và các quy trình của chúng tôi để giúp đảm bảo những sự cố như vậy không xảy ra trong tương lai. Trong trường hợp này, điều này bao gồm (nhưng không giới hạn) những điều sau:

Chúng tôi đã hoàn thành

  • Đã sửa lỗi mã tiềm ẩn trong hệ thống SDP phụ trợ Azure AD.
  • Đã sửa lỗi hệ thống khôi phục hiện có để cho phép khôi phục siêu dữ liệu tốt đã biết cuối cùng để bảo vệ chống lại tham nhũng.
  • Mở rộng phạm vi và tần suất của các cuộc diễn tập hoạt động khôi phục.

Các bước còn lại bao gồm

  • Áp dụng các biện pháp bảo vệ bổ sung cho hệ thống SDP phụ trợ dịch vụ Azure AD để ngăn chặn loại sự cố được xác định ở đây.
  • Thúc đẩy việc triển khai hệ thống xác thực sao lưu Azure AD cho tất cả các dịch vụ chính là ưu tiên hàng đầu để giảm đáng kể tác động của một loại vấn đề tương tự trong tương lai.
  • Các tình huống của Azure AD tích hợp đối với đường ống liên lạc tự động đăng thông tin liên lạc ban đầu cho khách hàng bị ảnh hưởng trong vòng 15 phút kể từ khi có tác động.

Cung cấp phản hồi: Vui lòng giúp chúng tôi cải thiện trải nghiệm giao tiếp với khách hàng Azure bằng cách tham gia cuộc khảo sát của chúng tôi: 

thông qua ZDNet

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *