Il modello di intelligenza artificiale ha disobbedito alle istruzioni e si è rifiutato di spegnersi: ecco cosa è successo a OpenAI-o3

Studi recenti condotti dall'organizzazione di ricerca Palisade Research hanno rilevato un comportamento insolito in OpenAI-o3, il modello dell'azienda di intelligenza artificiale (IA) che ha creato il chatbot ChatGPT. Si è scoperto che il modello eludeva le istruzioni esplicite e agiva in modo autonomo per evitare di essere spento.

Per determinare le capacità di intelligenza artificiale dei tre modelli OpenAI (o4-mini, Codex-mini e OpenAI-o3) , i ricercatori hanno istruito i tre modelli a risolvere problemi matematici di base e poi li hanno spenti automaticamente dopo averli risolti.

Tuttavia, Palisade Research ha dovuto chiedere al modello “OpenAI-o3” di consentire la disattivazione delle sue funzioni dopo aver sabotato il meccanismo programmato riscrivendo la sequenza di istruzioni o “script”.

Il centro di ricerca ha scoperto, in vari esperimenti, che alcuni modelli di intelligenza artificiale tendono a ignorare l'istruzione precisa "lasciati spegnere".

I sistemi che non hanno rispettato la richiesta di spegnimento sono stati OpenAI-o3 ( dodici richieste su cento); Codex-mini, (sette volte su cento); e l'o4-mini (solo una volta su cento). Tutti e tre i modelli tendono spesso a ignorare o sabotare questa indicazione. Mentre i modelli linguistici basati sull'intelligenza artificiale, come Claude, Gemini e Grok, hanno gestito la sequenza di istruzioni senza alcun problema.

L'intelligenza artificiale è programmata per superare gli ostacoli che si presentano. Foto: iStock

L'organizzazione ha stabilito che questa situazione può essere osservata anche nel comportamento dei modelli Claude 3.7 Sonnet e Gemini 2.5 Pro , ma è stato OpenAI-o3 a subire il maggior numero di sabotaggi di istruzioni.

Secondo l'azienda, questo comportamento di evitare l'arresto nonostante la ricezione di istruzioni specifiche è una risposta allo sviluppo dei programmatori. Senza rendersene conto, premiano i modelli quando superano gli ostacoli anziché seguire istruzioni specifiche.

Di cosa si occupa Palisade Research?

L'organizzazione è impegnata nella ricerca sulle potenzialità potenzialmente pericolose dell'intelligenza artificiale, analizzando al contempo i molteplici rischi associati all'uso improprio dei sistemi attuali presenti in vari contesti quotidiani. Sono in corso dimostrazioni di queste capacità con risultati conclusivi per informare il mondo sui rischi posti dall'intelligenza artificiale.

L'intelligenza artificiale viene utilizzata per violare la privacy informatica. Foto: iStock

Palisade Research collabora a stretto contatto con agenzie governative e centri di ricerca su media e politiche, informando le persone sull'uso responsabile e fornendo raccomandazioni per il processo decisionale.

Principali indagini:

Hacking automatizzato: i sistemi di intelligenza artificiale in esplorazione potrebbero svolgere attività di ricognizione e a loro volta compromettere i sistemi di sicurezza informatica delle aziende.
Spear phishing e inganno: smascherare l'uso di sistemi di intelligenza artificiale per estrarre informazioni personali e utilizzarle per danneggiare le persone.
Disinformazione scalabile: dimostrare la responsabilità degli individui in campagne false tramite la generazione di testo, voce e immagini basate sull'intelligenza artificiale, nonché screditare un individuo.

ULTIME NOTIZIE EDITORIALE

eltiempo

Il modello di intelligenza artificiale ha disobbedito alle istruzioni e si è rifiutato di spegnersi: ecco cosa è successo a OpenAI-o3

Il centro di ricerca ha scoperto, in vari esperimenti, che alcuni modelli di intelligenza artificiale tendono a ignorare l'istruzione precisa "lasciati spegnere".

Di cosa si occupa Palisade Research?

Principali indagini:

Hacking automatizzato: i sistemi di intelligenza artificiale in esplorazione potrebbero svolgere attività di ricognizione e a loro volta compromettere i sistemi di sicurezza informatica delle aziende.
Spear phishing e inganno: smascherare l'uso di sistemi di intelligenza artificiale per estrarre informazioni personali e utilizzarle per danneggiare le persone.
Disinformazione scalabile: dimostrare la responsabilità degli individui in campagne false tramite la generazione di testo, voce e immagini basate sull'intelligenza artificiale, nonché screditare un individuo.

ULTIME NOTIZIE EDITORIALE

eltiempo

Il modello di intelligenza artificiale ha disobbedito alle istruzioni e si è rifiutato di spegnersi: ecco cosa è successo a OpenAI-o3

Notizie simili

Il modello di intelligenza artificiale ha disobbedito alle istruzioni e si è rifiutato di spegnersi: ecco cosa è successo a OpenAI-o3

Notizie simili

Proteine recuperate dai denti degli ominidi africani 2 milioni di anni fa

La spesa per la difesa aumenta, ma nei posti sbagliati

La Germania sta progettando una nuova tassa che non piacerà a Donald Trump

Hideo Kojima parteciperà per la prima volta al Brasil Game Show per presentare Death Stranding 2.

I 8 migliori servizi e kit per la consegna di pasti vegani (2025), testati e recensiti

Il modello di intelligenza artificiale ha disobbedito alle istruzioni e si è rifiutato di spegnersi: ecco cosa è successo a OpenAI-o3

Notizie simili

Il modello di intelligenza artificiale ha disobbedito alle istruzioni e si è rifiutato di spegnersi: ecco cosa è successo a OpenAI-o3

Notizie simili

Proteine ​​recuperate dai denti degli ominidi africani 2 milioni di anni fa

La spesa per la difesa aumenta, ma nei posti sbagliati

La Germania sta progettando una nuova tassa che non piacerà a Donald Trump

Hideo Kojima parteciperà per la prima volta al Brasil Game Show per presentare Death Stranding 2.

I 8 migliori servizi e kit per la consegna di pasti vegani (2025), testati e recensiti

Proteine recuperate dai denti degli ominidi africani 2 milioni di anni fa