Η Microsoft δημοσιεύει ανάλυση βασικών αιτιών για τα μεγάλα προβλήματα σύνδεσης στο Microsoft 365 αυτής της εβδομάδας

Εικονίδιο ώρας ανάγνωσης 6 λεπτό. ανάγνωση


Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας. Εικονίδιο επεξήγησης εργαλείου

Διαβάστε τη σελίδα αποκάλυψης για να μάθετε πώς μπορείτε να βοηθήσετε το MSPoweruser να διατηρήσει τη συντακτική ομάδα Διάβασε περισσότερα

Αυτή την εβδομάδα είχαμε σχεδόν 5 ώρες διακοπή λειτουργίας για το Microsoft 365, με τους χρήστες να μην μπορούν να συνδεθούν σε πολλές υπηρεσίες, συμπεριλαμβανομένων των OneDrive και Microsoft Teams.

Σήμερα Η Microsoft δημοσίευσε μια ανάλυση της βασικής αιτίας του ζητήματος, για το οποίο η Microsoft λέει ότι οφειλόταν σε ενημέρωση υπηρεσίας που προοριζόταν να στοχεύει έναν εσωτερικό δακτύλιο δοκιμής επικύρωσης αλλά αντ' αυτού αναπτύχθηκε απευθείας στο περιβάλλον παραγωγής της Microsoft λόγω ελαττώματος λανθάνοντος κώδικα στο σύστημα Ασφαλούς Ανάπτυξης (SDP) της υπηρεσίας υποστήριξης Azure AD.

Η Microsoft λέει ότι περίπου μεταξύ 21:25 UTC στις 28 Σεπτεμβρίου 2020 και 00:23 UTC στις 29 Σεπτεμβρίου 2020, οι πελάτες αντιμετώπισαν σφάλματα κατά την εκτέλεση λειτουργιών ελέγχου ταυτότητας για όλες τις εφαρμογές και υπηρεσίες της Microsoft και τρίτων κατασκευαστών που εξαρτώνται από το Azure Active Directory (Azure AD ) για έλεγχο ταυτότητας. Το θέμα μετριάστηκε πλήρως για όλους στις 2:25 την επόμενη μέρα.

Οι ΗΠΑ και η Αυστραλία επλήγησαν περισσότερο, με μόνο το 17% των χρηστών στις ΗΠΑ να μπορούν να συνδεθούν με επιτυχία.

Το ζήτημα επιδεινώθηκε από το γεγονός ότι η Microsoft δεν μπόρεσε να επαναφέρει την ενημέρωση λόγω του λανθάνοντος ελαττώματος στο σύστημα SDP της που καταστρέφει τα μεταδεδομένα ανάπτυξης, πράγμα που σημαίνει ότι η ενημέρωση έπρεπε να επαναφερθεί με μη αυτόματο τρόπο.

Η Microsoft ζήτησε συγγνώμη από τους πελάτες που επηρεάστηκαν και είπε ότι συνεχίζουν να λαμβάνουν μέτρα για τη βελτίωση της πλατφόρμας Microsoft Azure και των διαδικασιών τους, προκειμένου να διασφαλιστεί ότι τέτοια συμβάντα δεν θα συμβούν στο μέλλον. Ένα από τα σχεδιαζόμενα βήματα περιλαμβάνει την εφαρμογή πρόσθετων προστασιών στο σύστημα υποστήριξης SDP της υπηρεσίας Azure AD για την αποτροπή της κατηγορίας προβλημάτων που εντοπίστηκαν.

Διαβάστε παρακάτω ολόκληρη την ανάλυση:

RCA – Σφάλματα ελέγχου ταυτότητας σε πολλές υπηρεσίες της Microsoft και ενσωματωμένες εφαρμογές Azure Active Directory (Αναγνωριστικό παρακολούθησης SM79-F88)

Σύνοψη του αντίκτυπου: Περίπου μεταξύ 21:25 UTC στις 28 Σεπτεμβρίου 2020 και 00:23 UTC στις 29 Σεπτεμβρίου 2020, οι πελάτες ενδέχεται να αντιμετώπισαν σφάλματα κατά την εκτέλεση λειτουργιών ελέγχου ταυτότητας για όλες τις εφαρμογές και υπηρεσίες της Microsoft και τρίτων κατασκευαστών που εξαρτώνται από το Azure Active Directory (Azure AD) για έλεγχο ταυτότητας. Οι εφαρμογές που χρησιμοποιούν το Azure AD B2C για έλεγχο ταυτότητας επηρεάστηκαν επίσης.

Οι χρήστες που δεν είχαν ήδη πιστοποιηθεί σε υπηρεσίες cloud χρησιμοποιώντας το Azure AD είχαν περισσότερες πιθανότητες να αντιμετωπίσουν προβλήματα και μπορεί να έχουν δει πολλές αποτυχίες αιτημάτων ελέγχου ταυτότητας που αντιστοιχούν στους μέσους αριθμούς διαθεσιμότητας που εμφανίζονται παρακάτω. Αυτά έχουν συγκεντρωθεί σε διαφορετικούς πελάτες και φόρτους εργασίας.

  • Ευρώπη: 81% ποσοστό επιτυχίας για τη διάρκεια του συμβάντος.
  • Αμερική: Ποσοστό επιτυχίας 17% για τη διάρκεια του περιστατικού, βελτιώνεται σε 37% ακριβώς πριν από τον μετριασμό.
  • Ασία: 72% ποσοστό επιτυχίας στα πρώτα 120 λεπτά του συμβάντος. Καθώς ξεκίνησε η αιχμή της επισκεψιμότητας κατά τις εργάσιμες ώρες, η διαθεσιμότητα μειώθηκε στο 32% στο χαμηλότερο επίπεδο.
  • Αυστραλία: 37% ποσοστό επιτυχίας για τη διάρκεια του περιστατικού.

Η υπηρεσία αποκαταστάθηκε στην κανονική λειτουργική διαθεσιμότητα για την πλειονότητα των πελατών έως τις 00:23 UTC στις 29 Σεπτεμβρίου 2020, ωστόσο, παρατηρήσαμε σπάνιες αποτυχίες αιτημάτων ελέγχου ταυτότητας που μπορεί να έχουν επηρεάσει τους πελάτες μέχρι τις 02:25 UTC.

Οι χρήστες που είχαν ελέγξει την ταυτότητα πριν από την ώρα έναρξης του αντίκτυπου ήταν λιγότερο πιθανό να αντιμετωπίσουν προβλήματα ανάλογα με τις εφαρμογές ή τις υπηρεσίες στις οποίες είχαν πρόσβαση.

Τα μέτρα ανθεκτικότητας που ισχύουν προστατεύουν τις υπηρεσίες Διαχειριζόμενων Ταυτοτήτων για Εικονικές Μηχανές, Σύνολα Κλίμακας Εικονικής Μηχανής και Υπηρεσίες Azure Kubernetes με μέση διαθεσιμότητα 99.8% καθ' όλη τη διάρκεια του συμβάντος.

Βασική αιτία: Στις 28 Σεπτεμβρίου στις 21:25 UTC, αναπτύχθηκε μια ενημέρωση υπηρεσίας που στοχεύει έναν εσωτερικό δακτύλιο δοκιμής επικύρωσης, προκαλώντας σφάλμα κατά την εκκίνηση στις υπηρεσίες υποστήριξης του Azure AD. Ένα ελάττωμα λανθάνοντος κώδικα στο σύστημα της υπηρεσίας υποστήριξης Azure AD Safe Deployment Process (SDP) προκάλεσε την άμεση ανάπτυξη του στο περιβάλλον παραγωγής μας, παρακάμπτοντας την κανονική διαδικασία επικύρωσης.

Το Azure AD έχει σχεδιαστεί για να είναι μια γεω-κατανεμημένη υπηρεσία που αναπτύσσεται σε μια ενεργή-ενεργή διαμόρφωση με πολλαπλά διαμερίσματα σε πολλαπλά κέντρα δεδομένων σε όλο τον κόσμο, κατασκευασμένα με όρια απομόνωσης. Κανονικά, οι αλλαγές στοχεύουν αρχικά έναν δακτύλιο επικύρωσης που δεν περιέχει δεδομένα πελατών, ακολουθούμενο από έναν εσωτερικό δακτύλιο που περιέχει μόνο χρήστες της Microsoft και, τέλος, το περιβάλλον παραγωγής μας. Αυτές οι αλλαγές αναπτύσσονται σε φάσεις σε πέντε δακτυλίους για αρκετές ημέρες.

Σε αυτήν την περίπτωση, το σύστημα SDP απέτυχε να στοχεύσει σωστά τον δακτύλιο δοκιμής επικύρωσης λόγω ενός λανθάνοντος ελαττώματος που επηρέασε την ικανότητα του συστήματος να ερμηνεύει τα μεταδεδομένα ανάπτυξης. Κατά συνέπεια, όλα τα δαχτυλίδια στοχεύτηκαν ταυτόχρονα. Η εσφαλμένη ανάπτυξη προκάλεσε υποβάθμιση της διαθεσιμότητας της υπηρεσίας.

Μέσα σε λίγα λεπτά από την πρόσκρουση, λάβαμε μέτρα για να επαναφέρουμε την αλλαγή χρησιμοποιώντας αυτοματοποιημένα συστήματα επαναφοράς που κανονικά θα περιόριζαν τη διάρκεια και τη σοβαρότητα της πρόσκρουσης. Ωστόσο, το λανθάνον ελάττωμα στο σύστημα SDP μας είχε καταστρέψει τα μεταδεδομένα ανάπτυξης και έπρεπε να καταφύγουμε σε διαδικασίες μη αυτόματης επαναφοράς. Αυτό επέκτεινε σημαντικά το χρόνο για να μετριαστεί το πρόβλημα.

Μείωση: Η παρακολούθησή μας εντόπισε την υποβάθμιση της υπηρεσίας μέσα σε λίγα λεπτά από την αρχική πρόσκρουση και δεσμευτήκαμε αμέσως για να ξεκινήσουμε την αντιμετώπιση προβλημάτων. Πραγματοποιήθηκαν οι ακόλουθες δράσεις μετριασμού:

  • Η πρόσκρουση ξεκίνησε στις 21:25 UTC και μέσα σε 5 λεπτά η παρακολούθησή μας εντόπισε μια ανθυγιεινή κατάσταση και η μηχανική άρχισε αμέσως.
  • Κατά τη διάρκεια των επόμενων 30 λεπτών, παράλληλα με την αντιμετώπιση του προβλήματος, ελήφθησαν μια σειρά βημάτων για την προσπάθεια ελαχιστοποίησης του αντίκτυπου στους πελάτες και επιτάχυνσης του μετριασμού. Αυτό περιελάμβανε την προληπτική κλιμάκωση ορισμένων από τις υπηρεσίες Azure AD για τη διαχείριση του αναμενόμενου φορτίου μόλις είχε εφαρμοστεί ένα μετριασμό και την αποτυχία σε συγκεκριμένους φόρτους εργασίας σε ένα εφεδρικό σύστημα ελέγχου ταυτότητας Azure AD.
  • Στις 22:02 UTC, εντοπίσαμε τη βασική αιτία, ξεκινήσαμε την αποκατάσταση και ξεκινήσαμε τους αυτοματοποιημένους μηχανισμούς επαναφοράς.
  • Η αυτόματη επαναφορά απέτυχε λόγω της καταστροφής των μεταδεδομένων του SDP. Στις 22:47 UTC ξεκινήσαμε τη διαδικασία μη αυτόματης ενημέρωσης της διαμόρφωσης της υπηρεσίας που παρακάμπτει το σύστημα SDP και ολόκληρη η λειτουργία ολοκληρώθηκε στις 23:59 UTC.
  • Μέχρι τις 00:23 UTC, αρκετές παρουσίες υπηρεσίας υποστήριξης επέστρεψαν σε υγιή κατάσταση για να επιτύχουν τις κανονικές λειτουργικές παραμέτρους της υπηρεσίας.
  • Όλες οι περιπτώσεις υπηρεσιών με υπολειπόμενο αντίκτυπο ανακτήθηκαν έως τις 02:25 UTC.

Επόμενα βήματα: Ζητούμε ειλικρινά συγγνώμη για τον αντίκτυπο στους πελάτες που επηρεάστηκαν. Λαμβάνουμε συνεχώς μέτρα για τη βελτίωση της πλατφόρμας Microsoft Azure και των διαδικασιών μας για να διασφαλίσουμε ότι τέτοια περιστατικά δεν θα συμβούν στο μέλλον. Σε αυτήν την περίπτωση, αυτό περιλαμβάνει (αλλά δεν περιορίζεται σε) τα ακόλουθα:

Έχουμε ήδη ολοκληρώσει

  • Διορθώθηκε το ελάττωμα του λανθάνοντος κώδικα στο σύστημα υποστήριξης SDP του Azure AD.
  • Διορθώθηκε το υπάρχον σύστημα επαναφοράς για να επιτρέψει την επαναφορά των τελευταίων γνωστών καλών μεταδεδομένων για προστασία από τη διαφθορά.
  • Επεκτείνετε το εύρος και τη συχνότητα των ασκήσεων λειτουργίας επαναφοράς.

Τα υπόλοιπα βήματα περιλαμβάνουν

  • Εφαρμόστε πρόσθετες προστασίες στο σύστημα υποστήριξης SDP της υπηρεσίας Azure AD για να αποτρέψετε την κατηγορία ζητημάτων που προσδιορίζονται εδώ.
  • Επιταχύνετε την κυκλοφορία του συστήματος ελέγχου ταυτότητας αντιγράφων ασφαλείας Azure AD σε όλες τις βασικές υπηρεσίες ως κορυφαία προτεραιότητα για να μειώσετε σημαντικά τον αντίκτυπο ενός παρόμοιου τύπου ζητήματος στο μέλλον.
  • Ενσωματωμένα σενάρια Azure AD στον αυτοματοποιημένο αγωγό επικοινωνιών που δημοσιεύει την αρχική επικοινωνία στους επηρεαζόμενους πελάτες εντός 15 λεπτών από την πρόσκρουση.

Παροχή σχολίων: Βοηθήστε μας να βελτιώσουμε την εμπειρία επικοινωνίας με τους πελάτες του Azure συμμετέχοντας στην έρευνά μας: 

μέσω ZDNet

Αφήστε μια απάντηση

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται *