Microsoft đăng bản Phân tích nguyên nhân gốc sơ bộ cho sự cố ngừng hoạt động lớn của Microsoft 365 ngày hôm qua

Biểu tượng thời gian đọc 2 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

Máy chủ trao đổi

Hôm qua Các dịch vụ đám mây của Microsoft bị ngừng hoạt động lớn mà Microsoft cho rằng không có khả năng thực hiện các hoạt động xác thực trên bất kỳ ứng dụng nào của Microsoft và bên thứ ba phụ thuộc vào Azure Active Directory (Azure AD) để xác thực.

Vấn đề kéo dài tổng cộng trong 14 giờ chưa từng có và có nghĩa là ngày làm việc đã bị hủy hoại đối với nhiều công ty.

Hôm nay Microsoft đã đăng Bản phân tích nguyên nhân gốc sơ bộ, trong đó đổ lỗi cho lỗi xảy ra trong quá trình xoay các khóa được sử dụng để hỗ trợ việc sử dụng OpenID của Azure AD và các giao thức tiêu chuẩn Identity khác cho các hoạt động ký mật mã.

Microsoft cho biết như một phần của quy trình vệ sinh an ninh tiêu chuẩn, một hệ thống tự động, theo lịch trình dựa trên thời gian, sẽ loại bỏ các khóa không còn được sử dụng. Trong vài tuần qua, một khóa cụ thể đã được đánh dấu là “giữ lại” lâu hơn bình thường để hỗ trợ quá trình di chuyển phức tạp giữa các đám mây. Điều này cho thấy một lỗi trong đó tự động hóa bỏ qua không chính xác trạng thái “giữ lại” đó, dẫn đến việc xóa khóa cụ thể đó.

Siêu dữ liệu về khóa ký được Azure AD xuất bản tới vị trí toàn cầu phù hợp với các giao thức chuẩn Nhận dạng Internet. Sau khi siêu dữ liệu công khai được thay đổi vào lúc 19:00 UTC, các ứng dụng sử dụng các giao thức này với Azure AD bắt đầu nhận siêu dữ liệu mới và ngừng tin tưởng các mã thông báo / xác nhận được ký bằng khóa đã bị xóa. Tại thời điểm đó, người dùng cuối không còn có thể truy cập các ứng dụng đó nữa.

Giải pháp rất đơn giản. Thao tác xóa khóa đã được xác định là nguyên nhân và siêu dữ liệu chính đã được khôi phục về trạng thái trước đó vào lúc 21:05 UTC. Thật không may, một tập hợp con Tài nguyên lưu trữ đã gặp phải tác động còn lại do siêu dữ liệu được lưu trong bộ nhớ cache và Microsoft cần phải đẩy một bản cập nhật để làm mất hiệu lực các mục nhập này và buộc làm mới. Quá trình này đã hoàn thành và việc giảm nhẹ cho các khách hàng bị ảnh hưởng thường xuyên đã được công bố vào lúc 09:25 UTC.

Microsoft cho biết họ đã có sẵn các quy trình để ngăn chặn loại rủi ro này nhưng mặc dù họ đã cung cấp các biện pháp bảo vệ để thêm khóa mới, thành phần khóa loại bỏ chỉ được lên kế hoạch hoàn thành vào giữa năm nay.

Microsoft đã xin lỗi về vấn đề này và cho biết họ đang tiếp tục thực hiện các bước để cải thiện Nền tảng Microsoft Azure và các quy trình của họ để giúp đảm bảo những sự cố như vậy không xảy ra trong tương lai.

Một cuộc điều tra đầy đủ về Phân tích nguyên nhân gốc rễ liên quan đến sự cố này vẫn đang diễn ra và sẽ được công bố khi nó được hoàn thành hoặc nếu có bất kỳ chi tiết cơ bản nào khác xuất hiện trong thời gian tạm thời.

Đọc tất cả các chi tiết tại Microsoft tại đây.

thông qua ZDNet

Thông tin thêm về các chủ đề: trời xanh, microsoft