CrowdStrike un anno dopo: cosa è successo e cosa è cambiato dopo il bug informatico del secolo

Un’estate fa, e precisamente la notte del 19 luglio, il mondo della tecnologia e non solo fu scosso da un evento definito in modo inequivocabile come il “Lunedì Nero” di CrowdStrike, azienda statunitense specializzata in soluzioni di cybersicurezza. Di cosa stiamo parlando? Di un guasto informatico di vastissima portata attribuito a un aggiornamento difettoso del software di protezione degli endpoint “Falcon”, che colpì milioni di dispositivi Windows e paralizzò migliaia di aziende a livello globale. Oggi, a distanza di dodici mesi, è tempo di tirare le somme: cosa successe esattamente e, soprattutto, è cambiato qualcosa (e perché) nel panorama della cybersecurity?
Pc che smettono improvvisamente di funzionare, stampanti che diventano inutilizzabili e server che vanno in tilt, il tutto nel giro di poche ore; questo è precisamente ciò che accadde a causa di un errore verificatosi durante un aggiornamento del database che catalogava le minacce, che provocò un’ondata di falsi positivi. Il software progettato per proteggere i sistemi dagli attacchi, in altre parole, identificò erroneamente come minacce file legittimi e componenti critici dei computer e delle macchine virtuali funzionanti con Windows, bloccandone l’esecuzione. Tecnicamente si verificò un BSOD, acronimo di “Blue Screen of Death”, e l’impatto fu immediato e devastante, con aziende di ogni dimensione e di vari settori (comprese banche, ospedali e trasporti) che si ritrovarono con le rispettive infrastrutture It (quasi) totalmente paralizzate. Si parla di decine di migliaia di organizzazioni colpite, con perdite economiche stimate nell’ordine di milioni e milioni di dollari già nelle prime ore post incidente per la sospensione forzata delle attività. Dall’Europa agli Stati Uniti, dove si registrarono problemi anche linee collegate al 911, il numero telefonico dedicato alle emergenze, fu un susseguirsi di interruzioni di servizio e le fra le immagini più emblematiche del disastro si ricordano soprattutto quelle degli aeroporti, con code enormi agli imbarchi e alle postazioni del check-in.
Da subito, diverse testate tech misero l’accento, anche in modo drammatico, su un fattore “sconosciuto” o quasi al grande pubblico, ovvero sia l’eccessiva dipendenza delle moderne infrastrutture digitali da pochi fornitori di sicurezza informatica (Crodstrike deteneva un anno fa circa il 15% del mercato a valore di questo comparto). Un episodio di vulnerabilità così estesa come quello che ha interessato il software di monitoraggio delle minacce dell’azienda texana, del resto, è avvenuto rarissime volte, vedi per esempio nel 2003 con il ransomware WannaCry. Ma a differenza di questi due episodi, il crash non è stato innescato da un codice malevolo distribuito da cybercriminali, bensì da una piattaforma antivirus che sfrutta un accesso in profondità ai sistemi “endpoint” (laptop, server e router) per rilevare malware e attività sospette che potrebbero indicare una compromissione. Ma è proprio questo livello di accesso costante, esteso e altamente sensibile necessario ai software di sicurezza per entrare in funzione prima di un qualsiasi programma dannoso installato sul sistema (accedendo alle parti in cui gli aggressori potrebbero cercare di inserire codice dannoso) ad aumentare le possibilità che lo stesso software e i suoi aggiornamenti possano mandare in crash l’intera architettura informatica. Ed è quello che successe il 19 luglio di un anno fa. Lo stesso Ceo di Crowdstrike, George Kurtz, spiegò pubblicamente che il guasto fu generato da un “difetto” nel codice del software, escludendo l’ipotesi di un attacco informatico e di fatto confermando che si trattò di un aggiornamento viziato da un bug (un “errore di tipo logico”, così venne catalogato) di uno dei prodotti della sua azienda, Falcon per l’appunto. Microsoft, da parte propria, ribadì in una nota come fu “l’aggiornamento del software la causa responsabile dell’interruzione di numerosi sistemi informatici a livello globale”, ammettendo al contempo come la società non avesse la supervisione degli aggiornamenti effettuati da Crowdstrike nei suoi sistemi”.
L’intervento di CrowdStrike per risolvere il problema fu immediato, seppur condizionata da una comunicazione alle aziende clienti inizialmente frammentata data la portata del disastro, e si concretizzò nel rilascio nel giro di poche ore di aggiornamenti correttivi per mitigare i danni. L’incidente, come lecito immaginarsi, aprì comunque le porte a discussioni molto serrate rispetto a un tema chiave in ambito cybersecurity, vale a dire le metodologie di test e di rilascio degli aggiornamenti software. Ciò che ha rilevato in modo chiaro l’incidente di dodici mesi fa, secondo vari esperti, è l’estrema delicatezza di ogni modifica apportata ai sistemi di protezione che operano a un livello così profondo dell’infrastruttura informatica, tale da comprometterne il funzionamento. La necessità di avere a disposizione ambienti di staging (luoghi digitali protetti in cui testare un nuovo sito o gli aggiornamenti di un software) più robusti e di attivare strategie di rollback (piani che dediniscono le modalità di ripristino di un sistema o di un’applicazione dopo un’operazione indesiderata) più efficaci è di comprensibilmente ascesa allo status di priorità indiscussa, spingendo molte aziende a riesaminare i propri processi interni. Difficile, per contro, trarre una “lesson learned” che risolva in modo radicale questa tipologia di problemi, perché guasti informatici simili continueranno a succedere, anche in relazione al progressivo processo di digitalizzazione e di interconnessione che sta interessando qualsiasi industria e qualsiasi comparto. È ovviamente convinzione di molti, ancora oggi, che CrowdStrike avrebbe potuto evitare il deflagrarsi dell’incidente, ma mai prima del 19 luglio 2024 il programma Falcon aveva evidenziato problemi e la distribuzione degli aggiornamenti difettosa si è protratta solo per un’ora e mezza circa, un tempo però utile a mettere fuori uso milioni di computer in tutto il globo. C’è chi, a poche ore dal “Lunedi Nero”, ricordò l’opportunità di eseguire aggiornamenti in modo graduale o addirittura dopo un’approvazione manuale degli stessi, ma si tratta di una prassi che l’esigenza di rispondere molto velocemente all’emergere di nuove vulnerabilità e minacce (pensiamo a malware particolarmente impattanti come WannaCry) ha progressivamente reso meno abitudinaria. Sul tavolo delle polemiche è finita ovviamente anche la questione dell’accesso al kernel di Windows (e quindi il programma al centro del sistema operativo che generalmente ha il controllo completo dell’intero sistema) concesso a un partner esterno come Crowdstrike, ma è stata la stessa Microsoft a ricordare come fu questa autorizzazione derivasse di fatto da un accordo stretto con la Commissione europea nel 2009, nell’ambito elle misure prese da Bruxelles per contrastare l’allora posizione monopolistica di Redmond nel campo dei browser web con il suo Internet Explorer.
A distanza di un anno, le conseguenze del bug di CrowdStrike sono in qualche modo ancora visibili, perché il tema della resilienza delle infrastrutture IT continua a essere di strettissima attualità per i Cio e l’intero management aziendale. In questi mesi, gli effetti di una rinnovata presa di coscienza delle imprese in ambito cybersecurity si sono visti, per esempio, in una maggiore propensione verso un approccio multi-vendor, basato su una mirata diversificazione dei fornitori di sicurezza per evitare pericolosi “single points of failure”. Parallelamente, sono aumentati gli investimenti in piani di disaster recovery e di business continuity, con un focus rafforzato sulla capacità di mantenere le operazioni in esercizio anche in caso di interruzioni critiche dei servizi esterni. L’attenzione degli addetti ai lavori, vista la specificità dell’incidente, si è spostata inoltre verso la robustezza e la prevedibilità dei rilasci software, dando sostanza alla necessità di standard di testing più rigorosi e di processi di validazione e rilascio degli aggiornamenti software molto più stringenti. Il disegno che accomuna l’intera industria tecnologica, CrowdStrike ovviamente inclusa, è quello di costruire un’infrastruttura digitale sempre più robusta, e intelligente a sufficienza per intercettare e prevenire errori che, anche per una sola volta, possono non arrivare dall’esterno.
ilsole24ore