Awaria platformy Microsoft Azure pokazuje brutalną rzeczywistość awarii chmury

Platforma chmurowa Azure firmy Microsoft , jej powszechnie używane usługi 365 , Xbox i Minecraft zaczęły nie działać w środę około południa czasu wschodniego. Według Microsoftu przyczyną była „niezamierzona zmiana konfiguracji”. Incydent ten — będący drugą poważną awarią u dostawcy usług chmurowych w ciągu niecałych dwóch tygodni — uwypukla niestabilność Internetu zbudowanego w dużej mierze na infrastrukturze obsługiwanej przez kilku gigantów technologicznych.
Problemy Microsoftu wynikały konkretnie z sieci dostarczania treści Front Door platformy Azure i pojawiły się zaledwie kilka godzin przed planowanym ogłoszeniem wyników finansowych. Witryna internetowa firmy, w tym jej strona relacji inwestorskich, była nadal niedostępna w środę po południu, a strona stanu platformy Azure , na której Microsoft udostępnia aktualizacje, również miała sporadyczne problemy.
W środowych aktualizacjach statusu Microsoft poinformował, że przeprowadził proces sekwencyjnego wycofywania ostatnich wersji swojego środowiska, aż do momentu, gdy udało mu się ustalić „ostatnią znaną dobrą” konfigurację. O godzinie 15:01 czasu wschodniego firma poinformowała o zidentyfikowaniu i wdrożeniu tej stabilnej konfiguracji oraz o tym, że „klienci mogą zacząć dostrzegać pierwsze oznaki poprawy. Obecnie odzyskujemy węzły i kierujemy ruch przez sprawne węzły”.
Rzecznik Microsoftu powiedział w oświadczeniu: „Pracujemy nad rozwiązaniem problemu z Azure Front Door, który wpływa na dostępność niektórych usług. Klienci powinni nadal sprawdzać alerty dotyczące kondycji usługi”. Firma nie odpowiedziała natychmiast na pytania WIRED dotyczące charakteru zmiany konfiguracji, która spowodowała awarię.
Oprócz tego, że awaria miała miejsce w dniu publikacji wyników finansowych Microsoftu, nastąpiła ona dziewięć dni po tym, jak rywal Azure, Amazon Web Services, doznał poważnej awarii , która wpłynęła na witryny i usługi na całym świecie. Główni dostawcy usług chmurowych, często nazywani „hiperskalowcami”, standaryzują i często ulepszają podstawowe zabezpieczenia i niezawodność dla swoich klientów, ale problemy i awarie mogą sprawić, że staną się one pojedynczymi punktami awarii dla dużej liczby kluczowych usług cyfrowych.
„Nawet strona stanu awarii platformy Azure jest niedostępna” – mówi Davi Ottenheimer, wieloletni menedżer ds. operacji bezpieczeństwa i zgodności oraz wiceprezes firmy Inrupt, zajmującej się infrastrukturą danych. „Kolejny błąd związany ze zmianą konfiguracji – żyjemy w erze naruszeń integralności, które są teraz bardziej powszechne niż kiedykolwiek”.
Platforma Azure uniemożliwiła klientom wprowadzanie zmian w konfiguracji ich instancji, dopóki nie podjęto działań w celu rozwiązania problemu. Firma poinformowała w aktualizacji stanu o godzinie 15:22 czasu wschodniego, że spodziewa się „pełnego załagodzenia” sytuacji do godziny 19:20 czasu wschodniego.
„Organizacje mogą uważać, że są chronione przez wybór dostawcy usług chmurowych, ale zależności sięgają głębiej” – mówi Munish Walther-Puri, adiunkt w IANS Research i były dyrektor ds. cyberzagrożeń w Nowym Jorku. „Kiedy kluczowi partnerzy polegają na innych dostawcach usług hiperskalowych, ryzyko się mnoży. W miarę jak sztuczna inteligencja staje się kolejną warstwą infrastruktury krytycznej, te awarie pokazują kruchość naszego cyfrowego szkieletu”.
wired




