CrowdStrike ein Jahr später: Was geschah und was sich nach dem Cyber-Bug des Jahrhunderts änderte

Vor einem Sommer, in der Nacht des 19. Juli, wurde die Tech-Welt und darüber hinaus von einem Ereignis erschüttert, das CrowdStrike, ein auf Cybersicherheitslösungen spezialisiertes US-Unternehmen, unmissverständlich als „Schwarzer Montag“ bezeichnete. Worum geht es? Um einen massiven IT-Ausfall, der auf ein fehlerhaftes Update der Endpoint-Protection-Software „Falcon“ zurückzuführen war. Millionen von Windows-Geräten waren betroffen und Tausende von Unternehmen weltweit lahmgelegt. Heute, zwölf Monate später, ist es Zeit, Bilanz zu ziehen: Was genau ist passiert, und vor allem: Hat sich in der Cybersicherheitslandschaft etwas verändert (und warum)?
PCs funktionierten plötzlich nicht mehr, Drucker wurden unbrauchbar und Server stürzten ab – und das alles innerhalb weniger Stunden. Genau das geschah aufgrund eines Fehlers bei der Aktualisierung der Bedrohungsdatenbank, der eine Welle von Fehlalarmen auslöste. Anders ausgedrückt: Die Software, die Systeme vor Angriffen schützen sollte, identifizierte legitime Dateien und kritische Komponenten von Windows-Computern und virtuellen Maschinen fälschlicherweise als Bedrohungen und blockierte deren Ausführung. Technisch gesehen trat ein BSOD (Blue Screen of Death) auf, und die Auswirkungen waren unmittelbar und verheerend: Unternehmen jeder Größe und aus verschiedenen Branchen (darunter Banken, Krankenhäuser und das Transportwesen) mussten feststellen, dass ihre IT-Infrastrukturen (fast) vollständig lahmgelegt waren. Zehntausende von Organisationen waren betroffen, und die wirtschaftlichen Verluste durch die erzwungene Betriebsunterbrechung beliefen sich bereits in den ersten Stunden nach dem Vorfall auf Millionen und Abermillionen Dollar. Von Europa bis in die USA, wo es ebenfalls Probleme mit den Leitungen der Notrufnummer 911 gab, kam es zu einer Reihe von Betriebsunterbrechungen. Zu den symbolträchtigsten Bildern der Katastrophe zählen die auf den Flughäfen mit ihren enormen Warteschlangen an den Gates und Check-in-Schaltern.
Von Anfang an wiesen mehrere Tech-Medien – wenn nicht gar dramatisch – auf einen Faktor hin, der der breiten Öffentlichkeit „unbekannt“ oder fast unbekannt war: die übermäßige Abhängigkeit moderner digitaler Infrastrukturen von wenigen Cybersicherheitsanbietern (Crodstrike hielt vor einem Jahr etwa 15 % des Marktwerts in diesem Sektor). Eine so weit verbreitete Schwachstelle wie die der Bedrohungsüberwachungssoftware des texanischen Unternehmens ist schließlich nur sehr selten aufgetreten, etwa 2003 bei der Ransomware WannaCry. Anders als bei diesen beiden Vorfällen wurde der Absturz jedoch nicht durch von Cyberkriminellen verbreiteten Schadcode ausgelöst, sondern durch eine Antivirenplattform, die tiefen Zugriff auf Endpunktsysteme (Laptops, Server und Router) nutzt, um Malware und verdächtige Aktivitäten zu erkennen, die auf eine Kompromittierung hindeuten könnten. Doch gerade dieser ständige, umfassende und hochsensible Zugriff, den Sicherheitssoftware benötigt, um einzugreifen, bevor ein auf dem System installiertes Schadprogramm auf die Bereiche zugreift, in denen Angreifer versuchen könnten, Schadcode einzuschleusen, erhöht das Risiko, dass die Software selbst und ihre Updates die gesamte IT-Architektur zum Absturz bringen. Und genau das geschah am 19. Juli vor einem Jahr. Crowdstrike-CEO George Kurtz selbst erklärte öffentlich, der Ausfall sei durch einen „Defekt“ im Softwarecode verursacht worden. Damit schloss er die Möglichkeit eines Cyberangriffs aus und bestätigte, dass es sich um ein Update mit einem Bug (einen „Logikfehler“, wie es genannt wurde) in einem seiner Produkte, Falcon, handelte. Microsoft seinerseits bekräftigte in einer Stellungnahme, dass „das Software-Update für die Störung zahlreicher Computersysteme weltweit verantwortlich“ sei, räumte aber ein, dass das Unternehmen keine Kontrolle über die von Crowdstrike auf seinen Systemen durchgeführten Updates hatte.
CrowdStrike reagierte umgehend auf das Problem, wenn auch aufgrund des Ausmaßes der Katastrophe durch die zunächst fragmentierte Kommunikation mit den Kundenunternehmen erschwert. Dies führte dazu, dass innerhalb weniger Stunden Korrekturupdates veröffentlicht wurden, um den Schaden zu begrenzen. Der Vorfall führte erwartungsgemäß zu intensiven Diskussionen über ein zentrales Cybersicherheitsthema: das Testen von Software-Updates und die Veröffentlichungsmethoden. Der Vorfall vor zwölf Monaten hat laut verschiedenen Experten deutlich gemacht, wie sensibel jede Änderung an Schutzsystemen ist, die tief in der IT-Infrastruktur operieren und deren Funktionalität potenziell beeinträchtigen können. Der Bedarf an robusteren Staging-Umgebungen (geschützten digitalen Räumen zum Testen neuer Websites oder Software-Updates) und effektiveren Rollback-Strategien (Pläne zur Wiederherstellung eines Systems oder einer Anwendung nach einem unerwünschten Vorgang) hat verständlicherweise höchste Priorität und veranlasst viele Unternehmen, ihre internen Prozesse zu überprüfen. Es ist jedoch schwierig, daraus eine Lehre zu ziehen, die dieses Problem radikal löst, da ähnliche IT-Ausfälle auch weiterhin auftreten werden, insbesondere angesichts der fortschreitenden Digitalisierung und Vernetzung, die alle Branchen und Sektoren betrifft. Viele sind nach wie vor davon überzeugt, dass CrowdStrike den Vorfall hätte verhindern können. Doch zuvor hatte es beim Falcon-Programm noch nie Probleme gegeben, und die fehlerhafte Update-Verteilung dauerte nur etwa anderthalb Stunden – genug Zeit, um Millionen von Computern weltweit lahmzulegen. Einige betonten nur wenige Stunden nach dem „Schwarzen Montag“ die Möglichkeit, Updates schrittweise oder sogar nach manueller Freigabe zu implementieren. Die Notwendigkeit, schnell auf neu auftretende Schwachstellen und Bedrohungen zu reagieren (man denke an besonders schwerwiegende Malware wie WannaCry), hat diese Praxis jedoch zunehmend weniger zur Routine gemacht. Auch die Frage, einem externen Partner wie CrowdStrike Zugriff auf den Windows-Kernel (das Kernprogramm des Betriebssystems, das in der Regel die vollständige Kontrolle über das gesamte System hat) zu gewähren, sorgte für Kontroversen. Microsoft selbst wies jedoch darauf hin, dass diese Genehmigung tatsächlich das Ergebnis einer Vereinbarung mit der Europäischen Kommission aus dem Jahr 2009 sei, die Teil der Maßnahmen Brüssels war, um der damaligen Monopolstellung von Redmond bei Webbrowsern mit seinem Internet Explorer entgegenzuwirken.
Ein Jahr später sind die Folgen des CrowdStrike-Bugs immer noch spürbar, da die Resilienz der IT-Infrastruktur weiterhin ein drängendes Anliegen von CIOs und Unternehmensführung ist. In den letzten Monaten zeigte sich das gestiegene Bewusstsein der Unternehmen für Cybersicherheit beispielsweise in einer stärkeren Tendenz zu einem Multi-Vendor-Ansatz, der auf einer gezielten Diversifizierung der Sicherheitsanbieter basiert, um gefährliche Single Points of Failure zu vermeiden. Gleichzeitig stiegen die Investitionen in Disaster-Recovery- und Business-Continuity-Pläne, wobei der Fokus verstärkt auf der Fähigkeit liegt, den Betrieb auch bei kritischen Störungen externer Dienste aufrechtzuerhalten. Angesichts der spezifischen Natur des Vorfalls richtete sich die Aufmerksamkeit der Branchenexperten auch auf die Robustheit und Vorhersehbarkeit von Software-Releases. Dies unterstreicht die Notwendigkeit strengerer Teststandards und deutlich strengerer Validierungs- und Release-Prozesse für Software-Updates. Der Plan, der die gesamte Technologiebranche, einschließlich CrowdStrike, eint, ist der Aufbau einer zunehmend robusten digitalen Infrastruktur, die intelligent genug ist, um Fehler abzufangen und zu verhindern, die – selbst nur einmal – möglicherweise nicht von außen kommen.
ilsole24ore