Вы не одиноки, многофакторная идентификация Azure снова не работает

Значок времени чтения 3 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Microsoft Azure

Многофакторная аутентификация Microsoft снова недоступна для некоторых клиентов. Microsoft подтвердила проблему на своем Статусная страница и упомянул, что затронутые клиенты могут столкнуться с ошибками тайм-аута. Инженеры Azure знают об этой проблеме и активно изучают варианты ее устранения.

Важно отметить, что только на прошлой неделе служба многофакторной аутентификации Microsoft отключилась на несколько часов, заблокировав доступ миллионов пользователей к различным службам, включая Office 365, Azure, Dynamics и другие службы, которые используют Azure Active Directory для аутентификации. Microsoft недавно опубликовала приведенный ниже анализ основной причины этого сбоя.

Были обнаружены три независимые первопричины. Кроме того, пробелы в телеметрии и мониторинге служб MFA задержали идентификацию и понимание этих основных причин, что привело к увеличению времени устранения. Первые две основные причины были идентифицированы как проблемы на внешнем сервере MFA, обе они появились в ходе развертывания обновления кода, которое началось в некоторых центрах обработки данных (DC) во вторник, 13 ноября 2018 г., и завершено во всех DC к пятнице, 16 ноября. 2018. Позже было установлено, что проблемы активируются после превышения определенного порога трафика, что впервые произошло рано утром в понедельник (UTC) в контроллерах домена Azure в Западной Европе (ЕС). Характеристики утреннего пикового трафика в западных ДЦ ЕС первыми преодолели порог, вызвавший ошибку. Третья основная причина не была представлена ​​в этом выпуске и была обнаружена в ходе расследования этого события.

1. Первая первопричина проявилась как проблема с задержкой при взаимодействии внешнего интерфейса MFA со службами кэширования. Эта проблема возникла при высокой нагрузке после достижения определенного порога трафика. Как только службы MFA столкнулись с этой первой проблемой, они с большей вероятностью вызвали вторую основную причину.
2. Вторая основная причина — это состояние гонки при обработке ответов внутреннего сервера MFA, которое привело к перезапуску процессов внешнего сервера MFA, что может вызвать дополнительную задержку, и третья основная причина (ниже) на внутреннем сервере MFA.
3. Третьей выявленной основной причиной была ранее необнаруженная проблема на внутреннем сервере MFA, которая была вызвана второй основной причиной. Эта проблема вызывает накопление процессов на серверной части MFA, что приводит к исчерпанию ресурсов на серверной части, и в этот момент он не может обрабатывать дальнейшие запросы от внешнего интерфейса MFA, хотя в остальном в нашем мониторинге он выглядит исправно.

Microsoft также упомянула, что собирается предпринять следующие шаги, чтобы избежать подобных проблем в будущем.

  • Ознакомьтесь с нашими процедурами развертывания обновлений, чтобы лучше выявлять похожие проблемы во время наших циклов разработки и тестирования (завершение к декабрю 2018 г.)
  • Проверка служб мониторинга для определения способов сокращения времени обнаружения и быстрого восстановления службы (завершение к декабрю 2018 г.)
  • Пересмотрите наш процесс сдерживания, чтобы избежать распространения проблемы на другие центры обработки данных (завершение к январю 2019 г.)
  • Обновите процесс связи с панелью мониторинга работоспособности службы и инструментами мониторинга, чтобы сразу же обнаруживать проблемы с публикацией во время инцидентов (завершение к декабрю 2018 г.)

Мы обновим сообщение последней информацией о сегодняшнем сбое, как только Microsoft предоставит ее.

Обновление от Майкрософт:

ТЕКУЩИЕ МЕРЫ ПО ИСПРАВЛЕНИЮ: в настоящее время инженеры задействуют серверные службы, отвечающие за обработку запросов MFA. Этот шаг по смягчению последствий внедряется регион за регионом, и в ряде регионов он уже завершен. Инженеры переоценивают влияние после завершения каждого региона. Инженеры также определили, что проблема системы доменных имен (DNS) вызывала сбой запросов на вход, но эта проблема устранена, и инженеры перезапускают инфраструктуру аутентификации.

Подробнее о темах: лазурь, Многофакторная идентификация Azure, предприятие, Microsoft, многофакторная аутентификация