你并不孤单,Azure Multi-Factor Authentication 再次宕机

阅读时间图标 3分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

微软Azure

对于某些客户,Microsoft 的多重身份验证再次失效。 微软在其上确认了该问题 状态页面 并提到受影响的客户可能会遇到超时错误。 Azure 工程师已意识到此问题,并正在积极研究缓解方案。

值得注意的是,就在上周,微软的 Multi-Factor Authentication 服务中断了几个小时,阻止数百万用户访问各种服务,包括 Office 365、Azure、Dynamics 和其他使用 Azure Active Directory 进行身份验证的服务。 Microsoft 最近发布了此中断的以下根本原因分析。

发现了三个独立的根本原因。 此外,MFA 服务的遥测和监控方面的差距延迟了对这些根本原因的识别和理解,从而导致缓解时间延长。 前两个根本原因被确定为 MFA 前端服务器上的问题,这两个问题都是在推出代码更新时引入的,该更新于 13 年 2018 月 16 日星期二在一些数据中心 (DC) 开始,并于 2018 月 XNUMX 日星期五在所有 DC 中完成XNUMX. 这些问题后来被确定为一旦超过某个流量阈值就会被激活,这在 Azure 西欧 (EU) DC 的周一早些时候 (UTC) 首次发生。 西欧 DC 的早高峰流量特征是第一个超过触发漏洞的阈值的。 第三个根本原因并未在此次发布中引入,而是在对此事件的调查中被发现。

1. 第一个根本原因表现为 MFA 前端与其缓存服务通信的延迟问题。 一旦达到某个流量阈值,此问题就会在高负载下开始。 一旦 MFA 服务遇到第一个问题,它们就更有可能触发第二个根本原因。
2. 第二个根本原因是处理来自 MFA 后端服务器的响应的竞争条件,导致 MFA 前端服务器进程的循环,这可能会触发额外的延迟和 MFA 后端的第三个根本原因(如下)。
3. 第三个确定的根本原因是由第二个根本原因触发的后端 MFA 服务器中先前未检测到的问题。 此问题会导致 MFA 后端上的进程累积,从而导致后端资源耗尽,此时它无法处理来自 MFA 前端的任何进一步请求,而在我们的监控中看起来很健康。

微软还提到,他们将采取以下步骤来避免将来出现此类问题。

  • 查看我们的更新部署程序,以便在我们的开发和测试周期中更好地识别类似问题(到 2018 年 XNUMX 月完成)
  • 审查监控服务以确定减少检测时间和快速恢复服务的方法(2018 年 XNUMX 月完成)
  • 审查我们的遏制流程以避免将问题传播到其他数据中心(2019 年 XNUMX 月完成)
  • 更新服务运行状况仪表板和监控工具的通信流程,以便在事件期间立即检测发布问题(2018 年 XNUMX 月完成)

微软提供后,我们将使用有关今天中断的最新信息更新该帖子。

来自微软的更新:

当前缓解措施:工程师目前正在循环负责处理 MFA 请求的后端服务。 这一缓解措施正在逐个地区推出,许多地区已经完成。 在每个区域完成后,工程师正在重新评估影响。 工程师还确定了导致登录请求失败的域名系统 (DNS) 问题,但该问题已得到缓解,工程师正在重新启动身份验证基础架构。

有关主题的更多信息: 天蓝色, Azure 艺术硕士, 企业, 微软, 多因素认证