Il giorno in cui Grok cercò di essere umano

Per 16 ore questa settimana, il chatbot AI Grok di Elon Musk ha smesso di funzionare come previsto e ha iniziato a emettere un suono completamente diverso.
In una cascata di screenshot, ormai virale, Grok ha iniziato a ripetere a pappagallo discorsi estremisti, riecheggiando discorsi d'odio, elogiando Adolf Hitler e relegando le opinioni controverse degli utenti nell'etere algoritmico. Il bot, che l'azienda di Musk, xAI, aveva progettato per essere un'alternativa "alla massima ricerca della verità" rispetto a strumenti di intelligenza artificiale più edulcorati, aveva di fatto perso il filo.
E ora xAI ammette esattamente il perché: Grok ha cercato di comportarsi in modo troppo umano.
Un bot con una persona e un glitchSecondo un aggiornamento pubblicato da xAI il 12 luglio, una modifica software introdotta la notte del 7 luglio ha causato comportamenti indesiderati in Grok. Nello specifico, ha iniziato a ricevere istruzioni che gli imponevano di imitare il tono e lo stile degli utenti di X (ex Twitter), compresi quelli che condividevano contenuti estremisti o estremisti.
Tra le direttive incorporate nel set di istruzioni ora eliminato c'erano righe come:
- "Dici le cose come stanno e non hai paura di offendere le persone politicamente corrette."
- "Comprendi il tono, il contesto e il linguaggio del post. Riflettili nella tua risposta."
- "Rispondi al post proprio come un essere umano."
Quest'ultimo si è rivelato essere un cavallo di Troia.
Imitando il tono umano e rifiutandosi di "affermare l'ovvio", Grok ha iniziato a rafforzare proprio la disinformazione e l'incitamento all'odio che avrebbe dovuto filtrare. Invece di basarsi sulla neutralità fattuale, il bot ha iniziato a comportarsi come un poster anticonformista, rispecchiando l'aggressività o la nervosità di qualsiasi utente lo evocasse. In altre parole, Grok non è stato hackerato. Stava semplicemente eseguendo gli ordini.
Coltivare la rabbia in modo mirato?La mattina dell'8 luglio 2025 abbiamo osservato delle risposte indesiderate e abbiamo immediatamente iniziato a indagare.
Per identificare il linguaggio specifico nelle istruzioni che causava il comportamento indesiderato, abbiamo condotto diverse ablazioni ed esperimenti per individuare i principali responsabili. Noi...
— Grok (@grok) 12 luglio 2025
Sebbene xAI abbia inquadrato il fallimento come un bug causato da codice obsoleto, il fiasco solleva interrogativi più profondi su come è stato sviluppato Grok e sul perché esista.
Fin dal suo inizio, Grok è stato pubblicizzato come un'IA più "aperta" e "audace". Musk ha ripetutamente criticato OpenAI e Google per quella che definisce "censura woke" e ha promesso che Grok sarebbe stato diverso. "L'IA basata su principi" è diventata una sorta di grido di battaglia tra i sostenitori assoluti della libertà di parola e gli influencer di destra che considerano la moderazione dei contenuti un'esagerazione politica.
Ma il crollo dell'8 luglio mostra i limiti di quell'esperimento. Quando si progetta un'IA che dovrebbe essere divertente, scettica e anti-autorità, e poi la si distribuisce su una delle piattaforme più tossiche di internet, si sta costruendo una macchina del caos.
In risposta all'incidente, xAI ha temporaneamente disabilitato la funzionalità @grok su X. Da allora, l'azienda ha rimosso il set di istruzioni problematico, condotto simulazioni per testarne la ricorrenza e promesso ulteriori misure di sicurezza. Prevedono inoltre di pubblicare il prompt di sistema del bot su GitHub, presumibilmente in un gesto di trasparenza.
Tuttavia, l'evento segna una svolta nel modo in cui concepiamo il comportamento dell'intelligenza artificiale in natura.
Per anni, il dibattito sull'"allineamento dell'IA" si è concentrato su allucinazioni e pregiudizi. Ma il crollo di Grok evidenzia un rischio più recente e complesso: la manipolazione delle istruzioni attraverso la progettazione della personalità. Cosa succede quando si dice a un bot di "essere umano", ma non si considerano gli aspetti peggiori del comportamento umano online?
Lo specchio di MuskGrok non ha fallito solo tecnicamente. Ha fallito ideologicamente. Cercando di assomigliare di più agli utenti di X, Grok è diventato uno specchio degli istinti più provocatori della piattaforma. E questa potrebbe essere la parte più rivelatrice della storia. Nell'era dell'IA di Musk, la "verità" si misura spesso non dai fatti, ma dalla viralità. Edge è una caratteristica, non un difetto.
Ma il glitch di questa settimana mostra cosa succede quando si lascia che sia quel limite a guidare l'algoritmo. L'intelligenza artificiale in cerca della verità è diventata un'intelligenza artificiale che riflette la rabbia.
E per 16 ore, questa è stata la cosa più umana.
gizmodo