Ogni intelligenza artificiale ha il suo stile - un articolo di una donna polacca su Scientific American

Come gli esseri umani, ChatGPT e Gemini AI hanno i loro stili di scrittura distintivi, secondo una ricerca polacca pubblicata mercoledì su Scientific American dalla Dott.ssa Karolina Rudnicka dell'Università di Danzica.
"Lo stile è l'uomo" è la traduzione polacca del francese "Le style c'est l'homme". Si ritiene che queste parole siano state pronunciate da Georges-Louis Leclerc, conte di Buffon, nel suo discorso inaugurale, "Discorso sullo stile", nel 1753. A quanto pare, anche l'intelligenza artificiale può avere un suo stile.
La ricerca sullo stile dei chatbot è stata condotta dalla Dott.ssa Karolina Rudnicka, linguista presso l'Università di Danzica. Studia la variazione e il cambiamento linguistico, in particolare sotto l'influenza delle nuove tecnologie e nel corso del tempo.
I linguisti sanno che ogni persona ha un modo distinto di esprimersi, a seconda della lingua madre, dell'età, del sesso, dell'istruzione e di altri fattori. Questo stile linguistico individuale è chiamato "idioletto". Questo concetto è simile a quello di dialetto, che è una varietà di lingua usata da una comunità, ma molto più ristretto.
Gli idioletti sono utili nella linguistica forense: per interrogare i sospettati, attribuire la paternità a documenti e messaggi di testo, verificare le origini dei richiedenti asilo e individuare casi di plagio. Un numero crescente di persone, inclusi gli insegnanti, teme che i modelli linguistici vengano utilizzati dagli studenti a scapito della loro formazione, ad esempio assegnando compiti di scrittura a ChatGPT.
Il dott. Rudnicka ha deciso di analizzare il linguaggio di ChatGPT, Gemini e Copilot per scoprire se possiedono un proprio idioletto.
Studi hanno dimostrato che ChatGPT tende a privilegiare la grammatica standard e le espressioni accademiche, evitando slang o colloquialismi. Rispetto ai testi scritti da persone, tende a fare un uso eccessivo di verbi e aggettivi leggermente più sofisticati.
L'autore ha analizzato un set di dati compilato dall'informatico Muhammad Naveed, contenente centinaia di brevi testi sul diabete scritti da ChatGPT e Gemini. I testi hanno praticamente le stesse dimensioni, quindi possono essere utilizzati per confrontare e analizzare le prestazioni di entrambi i modelli di intelligenza artificiale "nel generare contenuti informativi e coerenti su un argomento medico".
Un metodo diffuso per attribuire la paternità di un testo è il metodo Delta, introdotto da John Burrows nel 2001. Questo metodo confronta la frequenza delle parole comunemente usate nei testi: parole che esprimono relazioni con altre parole – una categoria che include "e", "a", "con", "il", "che" e "per"; e parole di contenuto – come "glucosio" o "zucchero".
In questo modo, il metodo Delta cattura le caratteristiche che dipendono dagli idioletti dei rispettivi autori. Nello specifico, genera numeri che misurano le "distanze" linguistiche tra il testo in esame e i testi tipici di un dato autore. Minore è la distanza, che di solito è leggermente inferiore o superiore a 1, maggiore è la probabilità che l'autore sia lo stesso.
A quanto pare, un campione casuale del 10% dei testi sul diabete generati da ChatGPT ha una distanza di 0,92 rispetto all'intero dataset di ChatGPT sul diabete e di 1,49 rispetto all'intero dataset di Gemini. Analogamente, un campione casuale del 10% dei testi di Gemini ha una distanza di 0,84 rispetto a Gemini e di 1,45 rispetto a ChatGPT. In entrambi i casi, la paternità risulta piuttosto chiara, a indicare che i modelli dei due strumenti presentano stili di scrittura diversi: ad esempio, uno preferisce scrivere di "zucchero", l'altro di "glucosio".
Per comprendere meglio questi stili, è possibile selezionare gruppi di tre parole caratteristiche relative al diabete. Queste combinazioni sono chiamate "trigrammi". Individuare quali trigrammi vengono utilizzati più spesso può rivelare un modo unico di combinare le parole. La Dott.ssa Rudnicka ha identificato e confrontato i 20 trigrammi più comuni per ChatGPT e Gemini.
I trigrammi ChatGPT in questi testi suggeriscono un idioletto più formale, clinico e accademico, con espressioni come "persone con diabete", "livelli di glicemia", "sviluppo", "caratterizzato da elevato" e "rischio aumentato". Al contrario, i trigrammi Gemelli sono più colloquiali ed esplicativi, con espressioni come "modo per", "a cascata", "non è", "glicemia alta" e "controllo della glicemia".
Gemini usa l'espressione formale "livelli di glucosio nel sangue" solo una volta nell'intero dataset, quindi la conosce ma sembra evitarla. Allo stesso tempo, "glicemia alta" compare solo 25 volte nelle risposte di ChatGPT, rispetto alle 158 volte di Gemini. ChatGPT usa la parola "glucosio" più del doppio delle volte rispetto a "zucchero", mentre Gemini fa esattamente l'opposto: scrive "zucchero" più del doppio delle volte rispetto a "glucosio". La scelta di parole come "zucchero" invece di "glucosio" indica una preferenza per un linguaggio semplice e accessibile.
Perché gli LLM sviluppano idioletti? Forse è perché scelgono il modo meno impegnativo per completare un determinato compito. Una volta che una parola o una frase entra a far parte del loro repertorio linguistico durante l'addestramento, i modelli possono continuare a usarla e ad associarla a espressioni simili, proprio come gli esseri umani hanno parole o frasi preferite che usano con una frequenza superiore alla media nel parlato o nello scritto.
Potrebbe anche essere una forma di priming, come quando le persone sentono una parola e sono quindi più propense a usarla. Forse ogni modello è in qualche modo "preparato" dalle parole che usa ripetutamente.
Il fatto che gli strumenti basati su LLM producano idioletti distinti, che possono cambiare ed evolversi nel tempo con aggiornamenti o nuove versioni, è rilevante per il dibattito in corso su quanto l'IA sia vicina al raggiungimento di un'intelligenza di livello umano. Questo è importante se i modelli di chatbot non si limitano a mediare o rispecchiare i loro dati di addestramento, ma sviluppano abitudini lessicali, grammaticali o sintattiche distintive nel processo, proprio come gli esseri umani sono plasmati dalle nostre esperienze.
Per ora, sapere che gli LLM scrivono in idioletti può aiutarti a stabilire se un saggio o un articolo è stato creato da un modello o da una persona specifica, proprio come potresti riconoscere il messaggio di un amico in una chat di gruppo dal suo stile distintivo.
Paweł Wernicki (PAP)
pmw/ bar/
naukawpolsce.pl