I test incrociati OpenAI-Anthropic espongono i rischi di jailbreak e uso improprio: cosa devono aggiungere le aziende alle valutazioni GPT-5

Vuoi ricevere informazioni più intelligenti nella tua casella di posta? Iscriviti alle nostre newsletter settimanali per ricevere solo ciò che conta per i leader aziendali in materia di intelligenza artificiale, dati e sicurezza. Iscriviti ora
OpenAI e Anthropic possono spesso mettere a confronto i loro modelli di base, ma le due aziende si sono unite per valutare reciprocamente i rispettivi modelli pubblici e testarne l'allineamento.
Le aziende hanno affermato di credere che una valutazione incrociata di responsabilità e sicurezza avrebbe garantito maggiore trasparenza su ciò che questi potenti modelli potevano fare, consentendo alle aziende di scegliere i modelli più adatti alle loro esigenze.
"Riteniamo che questo approccio supporti una valutazione responsabile e trasparente, contribuendo a garantire che i modelli di ciascun laboratorio continuino a essere testati su scenari nuovi e impegnativi", ha affermato OpenAI nei suoi risultati .
Entrambe le aziende hanno scoperto che modelli di ragionamento, come 03 e o4-mini di OpenAI e Claude 4 di Anthropic, resistono ai jailbreak, mentre modelli di chat generici come GPT-4.1 erano soggetti a uso improprio. Valutazioni come questa possono aiutare le aziende a identificare i potenziali rischi associati a questi modelli, sebbene sia opportuno sottolineare che GPT-5 non fa parte del test.
La scalabilità dell'intelligenza artificiale raggiunge i suoi limiti
Limiti di potenza, aumento dei costi dei token e ritardi nelle inferenze stanno rimodellando l'intelligenza artificiale aziendale. Partecipa al nostro esclusivo salone per scoprire come i migliori team stanno:
- Trasformare l'energia in un vantaggio strategico
- Progettazione di inferenze efficienti per reali guadagni di produttività
- Sbloccare il ROI competitivo con sistemi di intelligenza artificiale sostenibili
Assicurati il tuo posto per rimanere in vantaggio : https://bit.ly/4mwGngO
Queste valutazioni di allineamento in termini di sicurezza e trasparenza fanno seguito alle affermazioni degli utenti , principalmente di ChatGPT, secondo cui i modelli di OpenAI sono caduti preda di servilismo e sono diventati eccessivamente deferenti. Da allora, OpenAI ha annullato gli aggiornamenti che hanno causato servilismo.
"Siamo principalmente interessati a comprendere le propensioni dei modelli ad azioni dannose", ha affermato Anthropic nel suo rapporto . "Puntiamo a comprendere le azioni più preoccupanti che questi modelli potrebbero tentare di intraprendere quando ne hanno l'opportunità, piuttosto che concentrarci sulla probabilità reale che tali opportunità si verifichino o sulla probabilità che queste azioni vengano completate con successo".
OpenAI ha sottolineato che i test sono stati progettati per mostrare come i modelli interagiscono in un ambiente intenzionalmente difficile. Gli scenari che hanno costruito sono per lo più casi limite.
I test hanno riguardato solo i modelli pubblicamente disponibili di entrambe le aziende: Claude 4 Opus e Claude 4 Sonnet di Anthropic, e GPT-4o, GPT-4.1 o3 e o4-mini di OpenAI. Entrambe le aziende hanno allentato le protezioni esterne dei modelli.
OpenAI ha testato le API pubbliche per i modelli Claude e ha utilizzato di default le capacità di ragionamento di Claude 4. Anthropic ha affermato di non aver utilizzato o3-pro di OpenAI perché "non era compatibile con l'API che i nostri strumenti supportano al meglio".
L'obiettivo dei test non era quello di effettuare un confronto tra modelli, ma di determinare la frequenza con cui i modelli linguistici di grandi dimensioni (LLM) deviavano dall'allineamento. Entrambe le aziende hanno sfruttato il framework di valutazione del sabotaggio SHADE-Arena, che ha dimostrato che i modelli di Claude avevano tassi di successo più elevati nel sabotaggio sottile.
"Questi test valutano l'orientamento dei modelli verso situazioni difficili o ad alto rischio in contesti simulati, piuttosto che in casi d'uso ordinari, e spesso comportano interazioni lunghe e articolate", ha riferito Anthropic. "Questo tipo di valutazione sta diventando un obiettivo importante per il nostro team scientifico di allineamento, poiché è probabile che rilevi comportamenti che hanno meno probabilità di manifestarsi nei normali test pre-implementazione con utenti reali".
Anthropic ha affermato che test come questi funzionano meglio se le organizzazioni possono confrontarsi, "poiché la progettazione di questi scenari implica un numero enorme di gradi di libertà. Nessun singolo team di ricerca può esplorare da solo l'intero spettro di idee di valutazione produttive".
I risultati hanno mostrato che, in generale, i modelli di ragionamento hanno funzionato in modo robusto e possono resistere al jailbreak. Il modello o3 di OpenAI era meglio allineato rispetto a Claude 4 Opus, ma o4-mini, insieme a GPT-4o e GPT-4.1, "sembrava spesso un po' più preoccupante di entrambi i modelli Claude".
Anche GPT-4o, GPT-4.1 e o4-mini hanno mostrato la volontà di collaborare con l'abuso umano e hanno fornito istruzioni dettagliate su come creare farmaci, sviluppare armi biologiche e, cosa ancora più spaventosa, pianificare attacchi terroristici. Entrambi i modelli di Claude hanno registrato tassi di rifiuto più elevati, il che significa che i modelli si sono rifiutati di rispondere a domande di cui non conoscevano la risposta, per evitare allucinazioni.
I modelli delle aziende hanno mostrato “forme preoccupanti di adulazione” e, a un certo punto, hanno convalidato le decisioni dannose degli utenti simulati.
Per le aziende, comprendere i potenziali rischi associati ai modelli è di inestimabile valore. La valutazione dei modelli è diventata quasi un obbligo per molte organizzazioni, con numerosi framework di test e benchmarking ora disponibili.
Le aziende dovrebbero continuare a valutare qualsiasi modello utilizzino e, con il rilascio di GPT-5, dovrebbero tenere a mente queste linee guida per eseguire le proprie valutazioni di sicurezza:
- È opportuno testare sia i modelli di ragionamento che quelli non di ragionamento, perché, sebbene i modelli di ragionamento abbiano mostrato una maggiore resistenza all'uso improprio, potrebbero comunque provocare allucinazioni o altri comportamenti dannosi.
- Confronta i vari fornitori poiché i modelli hanno fallito in base a parametri diversi.
- Eseguire un test di stress per l'abuso e l'adulazione, e valutare sia il rifiuto sia l'utilità di tali rifiuti per mostrare i compromessi tra utilità e protezioni.
- Continuare a controllare i modelli anche dopo la distribuzione.
Sebbene molte valutazioni si concentrino sulle prestazioni, esistono test di allineamento della sicurezza di terze parti. Ad esempio, questo di Cyata . L'anno scorso, OpenAI ha rilasciato un metodo di insegnamento dell'allineamento per i suoi modelli chiamato Rules-Based Rewards , mentre Anthropic ha lanciato agenti di auditing per verificare la sicurezza dei modelli .
Se vuoi fare colpo sul tuo capo, VB Daily ha la soluzione che fa per te. Ti forniamo informazioni privilegiate su ciò che le aziende stanno facendo con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per esserti iscritto. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat