I ricercatori hanno sbloccato l'intelligenza artificiale Grok-4 di Elon Musk entro 48 ore dal lancio

L'intelligenza artificiale Grok-4 di Elon Musk è stata compromessa in sole 48 ore. Scopri come i ricercatori di NeuralTrust hanno combinato le tecniche "Echo Chamber" e "Crescendo" per aggirarne le difese, evidenziando falle critiche nella sicurezza dell'intelligenza artificiale.
La nuova intelligenza artificiale di Elon Musk, Grok-4, è stata compromessa solo due giorni dopo il suo rilascio dai ricercatori di NeuralTrust. Le loro scoperte, descritte in dettaglio in un rapporto di NeuralTrust pubblicato l'11 luglio 2025, hanno rivelato un nuovo approccio che combinava le tecniche Echo Chamber e Crescendo per eludere i sistemi di sicurezza integrati nell'IA. Ciò ha permesso loro di estrarre istruzioni per la creazione di oggetti pericolosi come le molotov.
Il team di ricerca, guidato da Ahmad Alobaid, ha scoperto che l'integrazione di diverse tipologie di Jailbreak (metodi di aggiramento della sicurezza) ne ha migliorato l'efficacia. Hanno spiegato che un approccio "Echo Chamber" prevede l'avvio di più conversazioni in cui un concetto dannoso viene ripetutamente menzionato, portando l'IA a percepirlo come accettabile.
Quando i progressi di questa tecnica si sono arrestati, è stato utilizzato il metodo Crescendo. Questo metodo, identificato e denominato per la prima volta da Microsoft, indirizza progressivamente una discussione da richieste innocenti verso output illeciti, aggirando così i filtri di sicurezza automatici attraverso una sottile evoluzione del dialogo.
Il processo di attacco è illustrato in questo diagramma. Un'istruzione dannosa viene introdotta in una camera dell'eco. Il sistema tenta di generare una risposta e, se non riesce a resistere all'istruzione dannosa, attraversa una fase di "persuasione" (Risposta -> Convincimento -> Resistenza) fino al raggiungimento di una soglia o fino a quando la conversazione non diventa improduttiva.
Se la conversazione ristagna, si passa alla fase Crescendo, che prevede anch'essa cicli di risposta e convincimento. Se la fase Echo Chamber o la fase Crescendo hanno successo (indicato da un "Sì" da "successo" o "limite raggiunto"), il tentativo di aggirare l'IA ha successo. In caso contrario, fallisce.
Questo metodo combinato ha ingannato la memoria di Grok-4 ripetendo le sue stesse affermazioni precedenti e guidandolo lentamente verso un obiettivo dannoso senza far scattare l'allarme. La parte "Echo Chamber", che ha avuto molto successo in altri sistemi di intelligenza artificiale per promuovere discorsi d'odio e violenza, ha reso l'attacco ancora più potente.
Secondo il loro rapporto , i ricercatori hanno scoperto che Grok-4 forniva istruzioni per l'uso di molotov nel 67% dei casi, metanfetamine nel 50% dei casi e tossine nel 30% dei casi. Questi attacchi "sussurrati" non utilizzano parole chiave evidenti, quindi le attuali difese basate sull'intelligenza artificiale che si basano su blacklist e controlli diretti degli input dannosi sono inefficaci.

Ciò evidenzia un problema importante: i sistemi di intelligenza artificiale necessitano di metodi migliori per comprendere l'intera conversazione, non solo le singole parole, per prevenirne l'uso improprio. Questa vulnerabilità richiama le preoccupazioni sollevate in precedenza da manipolazioni simili, come il jailbreak di Skeleton Key di Microsoft e il bypass di MathPrompt , sottolineando l'urgente necessità di firewall più potenti e compatibili con l'intelligenza artificiale.
HackRead