Oltre l'architettura GPT: perché l'approccio Diffusion di Google potrebbe rimodellare l'implementazione LLM

Partecipa all'evento di cui i leader aziendali si fidano da quasi vent'anni. VB Transform riunisce le persone che sviluppano una vera strategia di intelligenza artificiale aziendale. Scopri di più

Il mese scorso, insieme a una suite completa di nuovi strumenti e innovazioni di intelligenza artificiale , Google DeepMind ha presentato Gemini Diffusion . Questo modello di ricerca sperimentale utilizza un approccio basato sulla diffusione per generare testo. Tradizionalmente, i modelli linguistici di grandi dimensioni (LLM) come GPT e Gemini stesso si sono basati sull'autoregressione, un approccio graduale in cui ogni parola viene generata in base a quella precedente. I modelli linguistici di diffusione (DLM) , noti anche come modelli linguistici di grandi dimensioni basati sulla diffusione (dLLM), sfruttano un metodo più comunemente utilizzato nella generazione di immagini, partendo da rumore casuale e perfezionandolo gradualmente in un output coerente. Questo approccio aumenta notevolmente la velocità di generazione e può migliorare coerenza e consistenza.

Gemini Diffusion è attualmente disponibile come demo sperimentale; per accedervi, iscriviti alla lista d'attesa qui .

(Nota dell'editore: analizzeremo i cambiamenti di paradigma, come i modelli linguistici basati sulla diffusione, e ciò che serve per eseguirli in produzione, al VB Transform , che si terrà il 24 e 25 giugno a San Francisco , insieme a Google DeepMind, LinkedIn e altri leader dell'intelligenza artificiale aziendale.)

Diffusione e autoregressione sono approcci fondamentalmente diversi. L'approccio autoregressivo genera il testo in sequenza, con i token predetti uno alla volta. Sebbene questo metodo garantisca una solida coerenza e un tracciamento del contesto, può essere computazionalmente impegnativo e lento, soprattutto per i contenuti di lunga durata.

I modelli di diffusione, al contrario, partono da un rumore casuale, che viene gradualmente ridotto in un output coerente. Applicata al linguaggio, la tecnica offre diversi vantaggi. Blocchi di testo possono essere elaborati in parallelo, producendo potenzialmente interi segmenti o frasi a una velocità molto più elevata.

Gemini Diffusion può generare da 1.000 a 2.000 token al secondo. Al contrario, Gemini 2.5 Flash ha una velocità di output media di 272,4 token al secondo. Inoltre, gli errori di generazione possono essere corretti durante il processo di raffinazione, migliorando la precisione e riducendo il numero di allucinazioni. Potrebbero esserci dei compromessi in termini di precisione e controllo a livello di token; tuttavia, l'aumento di velocità rappresenterà un punto di svolta per numerose applicazioni.

Come funziona la generazione di testo basata sulla diffusione?

Durante l'addestramento, i DLM funzionano corrompendo gradualmente una frase con rumore di fondo in molti passaggi, fino a rendere la frase originale completamente irriconoscibile. Il modello viene quindi addestrato a invertire questo processo, passo dopo passo, ricostruendo la frase originale a partire da versioni sempre più rumorose. Attraverso il raffinamento iterativo, impara a modellare l'intera distribuzione di frasi plausibili nei dati di addestramento.

Sebbene i dettagli specifici di Gemini Diffusion non siano ancora stati resi noti, la tipica metodologia di addestramento per un modello di diffusione prevede le seguenti fasi chiave:

Diffusione diretta: con ogni campione nel set di dati di addestramento, il rumore viene aggiunto progressivamente nel corso di più cicli (spesso da 500 a 1.000) finché non diventa indistinguibile dal rumore casuale.

Diffusione inversa: il modello impara a invertire ogni fase del processo di creazione del rumore, imparando essenzialmente a "rimuovere il rumore" da una frase corrotta un passaggio alla volta, ripristinando infine la struttura originale.

Questo processo viene ripetuto milioni di volte con campioni e livelli di rumore diversi, consentendo al modello di apprendere una funzione di denoising affidabile.

Una volta addestrato, il modello è in grado di generare frasi completamente nuove. I DLM generalmente richiedono una condizione o un input, come un prompt, un'etichetta di classe o un embedding, per guidare la generazione verso i risultati desiderati. La condizione viene inserita in ogni fase del processo di denoising, che trasforma una macchia iniziale di rumore in un testo strutturato e coerente.

In un'intervista con VentureBeat, Brendan O'Donoghue, ricercatore presso Google DeepMind e uno dei responsabili del progetto Gemini Diffusion, ha illustrato alcuni dei vantaggi delle tecniche basate sulla diffusione rispetto all'autoregressione. Secondo O'Donoghue, i principali vantaggi delle tecniche di diffusione sono i seguenti:

Latenze inferiori: i modelli di diffusione possono produrre una sequenza di token in molto meno tempo rispetto ai modelli autoregressivi.
Calcolo adattivo: i modelli di diffusione convergeranno verso una sequenza di token a velocità diverse a seconda della difficoltà del compito. Ciò consente al modello di consumare meno risorse (e avere latenze inferiori) per i compiti facili e di utilizzarne di più per quelli più difficili.
Ragionamento non causale: grazie all'attenzione bidirezionale del denoiser, i token possono occuparsi di token futuri all'interno dello stesso blocco di generazione. Ciò consente il ragionamento non causale e consente al modello di apportare modifiche globali all'interno di un blocco per produrre un testo più coerente.
Raffinamento iterativo / autocorrezione: il processo di denoising prevede il campionamento, che può introdurre errori proprio come nei modelli autoregressivi. Tuttavia, a differenza dei modelli autoregressivi, i token vengono ritrasmessi al denoiser, che ha quindi l'opportunità di correggere l'errore.

O'Donoghue ha anche evidenziato i principali svantaggi: "costi di servizio più elevati e time-to-first-token (TTFT) leggermente più elevato, poiché i modelli autoregressivi produrranno immediatamente il primo token. Per quanto riguarda la diffusione, il primo token può apparire solo quando l'intera sequenza di token è pronta".

Google afferma che le prestazioni di Gemini Diffusion sono paragonabili a quelle di Gemini 2.0 Flash-Lite .

Segno di riferimento	Tipo	Diffusione dei Gemelli	Gemini 2.0 Flash-Lite
LiveCodeBench (v6)	Codice	30,9%	28,5%
BigCodeBench	Codice	45,4%	45,8%
LBPP (v2)	Codice	56,8%	56,0%
SWE-Bench verificato*	Codice	22,9%	28,5%
Valutazione umana	Codice	89,6%	90,2%
MBPP	Codice	76,0%	75,8%
GPQA Diamond	Scienza	40,4%	56,5%
AIME 2025	Matematica	23,3%	20,0%
BIG-Bench Extra Hard	Ragionamento	15,0%	21,0%
MMLU globale (Lite)	Multilingue	69,1%	79,0%

* Valutazione non agentiva (modifica solo a turno singolo), lunghezza massima del prompt di 32K.

I due modelli sono stati confrontati utilizzando diversi benchmark, con punteggi basati sul numero di volte in cui il modello ha prodotto la risposta corretta al primo tentativo. Gemini Diffusion ha ottenuto buoni risultati nei test di programmazione e matematica, mentre Gemini 2.0 Flash-lite si è dimostrato migliore in termini di ragionamento, conoscenze scientifiche e capacità multilingue.

Con l'evoluzione di Gemini Diffusion, non c'è motivo di pensare che le sue prestazioni non raggiungeranno quelle di modelli più consolidati. Secondo O'Donoghue, il divario tra le due tecniche è "sostanzialmente colmato in termini di prestazioni di benchmark, almeno alle dimensioni relativamente ridotte a cui siamo arrivati. In effetti, la diffusione potrebbe presentare un vantaggio in termini di prestazioni in alcuni domini in cui la coerenza non locale è importante, ad esempio nella codifica e nel ragionamento".

Test della diffusione dei Gemelli

A VentureBeat è stato concesso l'accesso alla demo sperimentale. Quando abbiamo messo alla prova Gemini Diffusion, la prima cosa che abbiamo notato è stata la velocità. Eseguendo i prompt suggeriti da Google, tra cui la creazione di app HTML interattive come Xylophone e Planet Tac Toe, ogni richiesta è stata completata in meno di tre secondi, con velocità che andavano da 600 a 1.300 token al secondo.

Per testarne le prestazioni con un'applicazione reale, abbiamo chiesto a Gemini Diffusion di creare un'interfaccia di video chat con il seguente prompt:

 Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.

In meno di due secondi, Gemini Diffusion ha creato un'interfaccia funzionante con un'anteprima video e un misuratore audio.

Sebbene non si sia trattato di un'implementazione complessa, potrebbe essere l'inizio di un MVP che può essere completato con un po' di ulteriore supporto. Si noti che anche Gemini 2.5 Flash ha prodotto un'interfaccia funzionante, sebbene a un ritmo leggermente inferiore (circa sette secondi).

Gemini Diffusion offre anche "Modifica istantanea", una modalità in cui testo o codice possono essere incollati e modificati in tempo reale con un intervento minimo. La Modifica istantanea è efficace per molti tipi di editing testuale, tra cui la correzione grammaticale, l'aggiornamento del testo per diversi target di lettori o l'aggiunta di parole chiave SEO. È utile anche per attività come il refactoring del codice, l'aggiunta di nuove funzionalità alle applicazioni o la conversione di una base di codice esistente in un linguaggio diverso.

Si può affermare con certezza che qualsiasi applicazione che richieda tempi di risposta rapidi trarrà beneficio dalla tecnologia DLM. Questo include applicazioni in tempo reale e a bassa latenza, come l'intelligenza artificiale conversazionale e i chatbot, la trascrizione e la traduzione in tempo reale, o gli assistenti di programmazione e di completamento automatico IDE. Secondo O'Donoghue, con applicazioni che sfruttano "l'editing in linea, ad esempio prendendo un testo e apportando alcune modifiche sul posto, i modelli di diffusione sono applicabili in modi in cui i modelli autoregressivi non lo sono". I DLM presentano inoltre un vantaggio con problemi di ragionamento, matematica e programmazione, grazie al "ragionamento non causale offerto dall'attenzione bidirezionale".

I DLM sono ancora agli inizi; tuttavia, la tecnologia può potenzialmente trasformare il modo in cui vengono costruiti i modelli linguistici. Non solo generano testo a una velocità molto più elevata rispetto ai modelli autoregressivi, ma la loro capacità di tornare indietro e correggere gli errori significa che, in futuro, potrebbero anche produrre risultati con maggiore accuratezza.

venturebeat

Oltre l'architettura GPT: perché l'approccio Diffusion di Google potrebbe rimodellare l'implementazione LLM

Notizie simili

Come monetizzare le app Unity: best practice

L'Organizzazione per la gestione dei rifiuti nucleari avvia il processo di selezione del sito per il secondo deposito geologico profondo

Gli smartphone Google Pixel 9 crollano al prezzo più basso di sempre in una sorprendente vendita Sky

Presto arriverà un enorme aggiornamento gratuito per iPhone e c'è un modo semplice per ottenerlo per primo

WhatsApp avvisa gli utenti del Regno Unito di 9 modifiche all'app che potrebbero essersi persi