Come impedire a un modello di intelligenza artificiale di diventare nazista? Cosa rivela il dramma di Grok.

Grok, il chatbot di intelligenza artificiale (IA) integrato in X (ex Twitter) e sviluppato dall'azienda xAI di Elon Musk, è tornato alla ribalta dopo essersi autodefinito "MechaHitler" e aver rilasciato dichiarazioni filo-naziste.
Gli sviluppatori si sono scusati per i "post inappropriati" e hanno "adottato misure per vietare l'incitamento all'odio" nei post di Grok su X. Sono ripresi anche i dibattiti sui pregiudizi dell'intelligenza artificiale.
Ma l'ultima controversia su Grok è rivelatrice non per le sue dichiarazioni estremiste, ma per come mette in luce una disonestà fondamentale nello sviluppo dell'intelligenza artificiale. Musk afferma di star costruendo un'intelligenza artificiale " alla ricerca della verità ", libera da pregiudizi, eppure l'implementazione tecnica rivela una programmazione ideologica sistemica.
Si tratta di un caso di studio casuale su come i sistemi di intelligenza artificiale integrino i valori dei loro creatori, con la presenza pubblica senza filtri di Musk che rende visibile ciò che altre aziende solitamente nascondono.
Che cosa è Grok?Grok è un chatbot basato sull'intelligenza artificiale con "un pizzico di umorismo e un pizzico di ribellione" sviluppato da xAI , proprietaria anche della piattaforma di social media X.
La prima versione di Grok è stata lanciata nel 2023. Valutazioni indipendenti suggeriscono che l'ultimo modello, Grok 4, supera i concorrenti nei test di "intelligenza". Il chatbot è disponibile sia in modalità standalone che su X.
xAI afferma che "la conoscenza dell'intelligenza artificiale dovrebbe essere onnicomprensiva e il più ampia possibile". Musk ha già presentato Grok come un'alternativa veritiera ai chatbot accusati di essere "woke" dai commentatori di destra .
Ma oltre all'ultimo scandalo nazista, Grok ha fatto notizia per aver diffuso minacce di violenza sessuale, sollevato il tema del "genocidio bianco" in Sudafrica e rilasciato dichiarazioni offensive nei confronti dei politici. Quest'ultimo ha portato al suo divieto in Turchia .
Come possono gli sviluppatori infondere nell'IA tali valori e modellare il comportamento dei chatbot? I chatbot odierni sono sviluppati utilizzando modelli linguistici di grandi dimensioni (LLM), che offrono diverse leve su cui gli sviluppatori possono fare affidamento.
Cosa spinge un'intelligenza artificiale a "comportarsi" in questo modo?Pre-allenamento
In primo luogo, gli sviluppatori selezionano attentamente i dati utilizzati durante la fase di pre-addestramento, il primo passo nella creazione di un chatbot. Questo non significa solo filtrare i contenuti indesiderati, ma anche enfatizzare quelli desiderati.
GPT-3 ha ricevuto da Wikipedia un numero di dati fino a sei volte superiore rispetto ad altri set di dati, poiché OpenAI lo ha ritenuto di qualità superiore. Grok è addestrato su diverse fonti, inclusi i post di X, il che potrebbe spiegare perché si dice che Grok verifichi l'opinione di Elon Musk su argomenti controversi.
Musk ha affermato che xAI gestisce i dati di addestramento di Grok, ad esempio per migliorare le conoscenze legali e rimuovere i contenuti generati da LLM per il controllo qualità. Ha anche fatto appello alla comunità di X per problemi complessi legati al "cervello galattico" e per fatti "politicamente scorretti, ma comunque veri".
Non sappiamo se questi dati siano stati utilizzati né quali misure di controllo qualità siano state applicate.
Ritocchi
La seconda fase, la messa a punto, regola il comportamento del LLM utilizzando il feedback. Gli sviluppatori creano manuali dettagliati che delineano le loro posizioni etiche preferite, che i revisori umani o i sistemi di intelligenza artificiale utilizzano poi come base per valutare e migliorare le risposte del chatbot, codificando di fatto questi valori nella macchina.
Un'indagine di Business Insider ha rivelato che le istruzioni di xAI ai "tutor di intelligenza artificiale" umani suggerivano loro di cercare "ideologia woke" e "cultura della cancellazione". Mentre i documenti di onboarding affermavano che Grok non avrebbe dovuto "imporre un'opinione che confermasse o negasse i pregiudizi di un utente", affermavano anche che avrebbe dovuto evitare risposte che affermassero che entrambe le parti di un dibattito avessero valore, quando in realtà non lo avevano.
Richieste di sistema
Il prompt di sistema, ovvero le istruzioni fornite prima di ogni conversazione, guida il comportamento una volta implementato il modello.
A suo merito, xAI pubblica i prompt di sistema di Grok. Le sue istruzioni di "presupporre che i punti di vista soggettivi provenienti dai media siano di parte" e di "non esitare a fare affermazioni politicamente scorrette, purché siano ben comprovate" sono state probabilmente fattori chiave nell'ultima controversia.
Al momento in cui scrivo, questi suggerimenti vengono aggiornati quotidianamente e la loro evoluzione costituisce di per sé un caso di studio affascinante.
Guardrail
Infine, gli sviluppatori possono anche aggiungere dei "guardrail", ovvero filtri che bloccano determinate richieste o risposte. OpenAI afferma di non consentire a ChatGPT di "generare contenuti d'odio, molesti, violenti o per adulti". Nel frattempo, il modello cinese DeepSeek censura le discussioni su Piazza Tienanmen.
I test ad hoc effettuati al momento della stesura di questo articolo suggeriscono che Grok è molto meno limitato a questo riguardo rispetto ai prodotti della concorrenza.
Il paradosso della trasparenzaLa controversia nazista di Grok mette in luce una questione etica più profonda: preferiremmo che le aziende di intelligenza artificiale fossero esplicitamente ideologiche e oneste al riguardo, oppure che mantenessero la finzione della neutralità, incorporando segretamente i propri valori?
Ogni importante sistema di intelligenza artificiale riflette la visione del mondo del suo creatore: dalla prospettiva aziendale avversa al rischio di Microsoft Copilot all'etica incentrata sulla sicurezza di Anthropic Claude. La differenza sta nella trasparenza.
Le dichiarazioni pubbliche di Musk rendono facile ricondurre i comportamenti di Grok alle sue convinzioni dichiarate sull'"ideologia woke" e sulla parzialità dei media. Nel frattempo, quando altre piattaforme falliscono clamorosamente, ci ritroviamo a chiederci se ciò rifletta opinioni di leadership, avversione al rischio aziendale, pressioni normative o un incidente.
Mi sembra familiare. Grok assomiglia al chatbot Tay di Microsoft del 2016, che lanciava incitamenti all'odio, anch'esso addestrato con i dati di Twitter e rilasciato su Twitter prima di essere disattivato.
Ma c'è una differenza cruciale. Il razzismo di Tay è emerso dalla manipolazione degli utenti e da scarse misure di sicurezza: una conseguenza indesiderata. Il comportamento di Grok sembra derivare almeno in parte dalla sua progettazione.
La vera lezione di Grok riguarda l'onestà nello sviluppo dell'intelligenza artificiale. Man mano che questi sistemi diventano più potenti e diffusi (il supporto di Grok nei veicoli Tesla è stato appena annunciato ), la domanda non è se l'intelligenza artificiale rifletterà i valori umani. La questione è se le aziende saranno trasparenti su quali valori stanno codificando e perché.
L'approccio di Musk è allo stesso tempo più onesto (possiamo vedere la sua influenza) e più ingannevole (sostenendo l'oggettività mentre programma la soggettività) rispetto ai suoi concorrenti.
In un settore costruito sul mito degli algoritmi neutrali, Grok rivela ciò che è sempre stato vero: non esiste un'intelligenza artificiale imparziale, ma solo un'intelligenza artificiale i cui pregiudizi possiamo vedere con diversi gradi di chiarezza.
Aaron J. Snoswell, ricercatore senior in intelligenza artificiale responsabile, Queensland University of Technology
Questo articolo è stato ripubblicato da The Conversation con licenza Creative Commons.
Cbs News