Il modello di intelligenza artificiale ha disobbedito alle istruzioni e si è rifiutato di spegnersi: ecco cosa è successo a OpenAI-o3

Studi recenti condotti dall'organizzazione di ricerca Palisade Research hanno rilevato un comportamento insolito in OpenAI-o3, il modello dell'azienda di intelligenza artificiale (IA) che ha creato il chatbot ChatGPT. Si è scoperto che il modello eludeva le istruzioni esplicite e agiva in modo autonomo per evitare di essere spento.
Per determinare le capacità di intelligenza artificiale dei tre modelli OpenAI (o4-mini, Codex-mini e OpenAI-o3) , i ricercatori hanno istruito i tre modelli a risolvere problemi matematici di base e poi li hanno spenti automaticamente dopo averli risolti.
Tuttavia, Palisade Research ha dovuto chiedere al modello “OpenAI-o3” di consentire la disattivazione delle sue funzioni dopo aver sabotato il meccanismo programmato riscrivendo la sequenza di istruzioni o “script”.

Intelligenza artificiale. Foto: iStock
Il centro di ricerca ha scoperto, in vari esperimenti, che alcuni modelli di intelligenza artificiale tendono a ignorare l'istruzione precisa "lasciati spegnere".
I sistemi che non hanno rispettato la richiesta di spegnimento sono stati OpenAI-o3 ( dodici richieste su cento); Codex-mini, (sette volte su cento); e l'o4-mini (solo una volta su cento). Tutti e tre i modelli tendono spesso a ignorare o sabotare questa indicazione. Mentre i modelli linguistici basati sull'intelligenza artificiale, come Claude, Gemini e Grok, hanno gestito la sequenza di istruzioni senza alcun problema.

L'intelligenza artificiale è programmata per superare gli ostacoli che si presentano. Foto: iStock
L'organizzazione ha stabilito che questa situazione può essere osservata anche nel comportamento dei modelli Claude 3.7 Sonnet e Gemini 2.5 Pro , ma è stato OpenAI-o3 a subire il maggior numero di sabotaggi di istruzioni.
Secondo l'azienda, questo comportamento di evitare l'arresto nonostante la ricezione di istruzioni specifiche è una risposta allo sviluppo dei programmatori. Senza rendersene conto, premiano i modelli quando superano gli ostacoli anziché seguire istruzioni specifiche.
Di cosa si occupa Palisade Research? L'organizzazione è impegnata nella ricerca sulle potenzialità potenzialmente pericolose dell'intelligenza artificiale, analizzando al contempo i molteplici rischi associati all'uso improprio dei sistemi attuali presenti in vari contesti quotidiani. Sono in corso dimostrazioni di queste capacità con risultati conclusivi per informare il mondo sui rischi posti dall'intelligenza artificiale.

L'intelligenza artificiale viene utilizzata per violare la privacy informatica. Foto: iStock
Palisade Research collabora a stretto contatto con agenzie governative e centri di ricerca su media e politiche, informando le persone sull'uso responsabile e fornendo raccomandazioni per il processo decisionale.
Principali indagini:- Hacking automatizzato: i sistemi di intelligenza artificiale in esplorazione potrebbero svolgere attività di ricognizione e a loro volta compromettere i sistemi di sicurezza informatica delle aziende.
- Spear phishing e inganno: smascherare l'uso di sistemi di intelligenza artificiale per estrarre informazioni personali e utilizzarle per danneggiare le persone.
- Disinformazione scalabile: dimostrare la responsabilità degli individui in campagne false tramite la generazione di testo, voce e immagini basate sull'intelligenza artificiale, nonché screditare un individuo.
ULTIME NOTIZIE EDITORIALE
eltiempo