Microsoft 发布了昨天 Microsoft 365 重大中断的初步根本原因分析

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

Exchange服务器

昨天 微软云服务遭遇重大中断 Microsoft 将其归因于无法对依赖 Azure Active Directory (Azure AD) 进行身份验证的任何 Microsoft 和第三方应用程序执行身份验证操作。

这个问题总共持续了史无前例的 14 小时,这意味着许多公司的工作日被宠坏了。

今天,微软发布了一份初步的根本原因分析,该分析归咎于用于支持 Azure AD 使用 OpenID 和其他用于加密签名操作的身份标准协议的密钥轮换中发生的错误。

微软表示,作为标准安全卫生的一部分,自动化系统会按时间安排删除不再使用的密钥。 在过去的几周里,一个特定的密钥被标记为“保留”的时间比正常情况要长,以支持复杂的跨云迁移。 这暴露了一个错误,即自动化错误地忽略了“保留”状态,导致它删除了该特定键。

Azure AD 根据 Internet 身份标准协议将有关签名密钥的元数据发布到全球位置。 在 UTC 时间 19:00 更改公共元数据后,将这些协议与 Azure AD 结合使用的应用程序开始获取新的元数据并停止信任使用已删除密钥签名的令牌/断言。 那时,最终用户不再能够访问这些应用程序。

解决方案很简单。 密钥删除操作被确定为原因,并且密钥元数据在 UTC 时间 21:05 回滚到之前的状态。 不幸的是,由于缓存的元数据,一部分存储资源受到了残留影响,Microsoft 需要推送更新以使这些条目无效并强制刷新。 该流程已完成,并在 UTC 时间 09:25 宣布对残留影响的客户进行缓解。

微软表示,他们已经制定了防止此类风险的流程,但虽然它已经为添加新密钥提供了保护,但删除密钥组件仅计划在年中完成。

微软对此问题表示歉意,并表示他们正在不断采取措施改进微软 Azure 平台及其流程,以帮助确保未来不会发生此类事件。

与此事件相关的完整根本原因分析调查仍在进行中,将在调查完成后或在此期间出现任何其他实质性细节时发布。

阅读 Microsoft 的所有详细信息 点击此处.

通过 网易科技

有关主题的更多信息: 天蓝色, 微软