Seleziona la lingua

Italian

Down Icon

Seleziona Paese

England

Down Icon

Oltre l'architettura GPT: perché l'approccio Diffusion di Google potrebbe rimodellare l'implementazione LLM

Oltre l'architettura GPT: perché l'approccio Diffusion di Google potrebbe rimodellare l'implementazione LLM

Partecipa all'evento di cui i leader aziendali si fidano da quasi vent'anni. VB Transform riunisce le persone che sviluppano una vera strategia di intelligenza artificiale aziendale. Scopri di più

Il mese scorso, insieme a una suite completa di nuovi strumenti e innovazioni di intelligenza artificiale , Google DeepMind ha presentato Gemini Diffusion . Questo modello di ricerca sperimentale utilizza un approccio basato sulla diffusione per generare testo. Tradizionalmente, i modelli linguistici di grandi dimensioni (LLM) come GPT e Gemini stesso si sono basati sull'autoregressione, un approccio graduale in cui ogni parola viene generata in base a quella precedente. I modelli linguistici di diffusione (DLM) , noti anche come modelli linguistici di grandi dimensioni basati sulla diffusione (dLLM), sfruttano un metodo più comunemente utilizzato nella generazione di immagini, partendo da rumore casuale e perfezionandolo gradualmente in un output coerente. Questo approccio aumenta notevolmente la velocità di generazione e può migliorare coerenza e consistenza.

Gemini Diffusion è attualmente disponibile come demo sperimentale; per accedervi, iscriviti alla lista d'attesa qui .

(Nota dell'editore: analizzeremo i cambiamenti di paradigma, come i modelli linguistici basati sulla diffusione, e ciò che serve per eseguirli in produzione, al VB Transform , che si terrà il 24 e 25 giugno a San Francisco , insieme a Google DeepMind, LinkedIn e altri leader dell'intelligenza artificiale aziendale.)

Diffusione e autoregressione sono approcci fondamentalmente diversi. L'approccio autoregressivo genera il testo in sequenza, con i token predetti uno alla volta. Sebbene questo metodo garantisca una solida coerenza e un tracciamento del contesto, può essere computazionalmente impegnativo e lento, soprattutto per i contenuti di lunga durata.

I modelli di diffusione, al contrario, partono da un rumore casuale, che viene gradualmente ridotto in un output coerente. Applicata al linguaggio, la tecnica offre diversi vantaggi. Blocchi di testo possono essere elaborati in parallelo, producendo potenzialmente interi segmenti o frasi a una velocità molto più elevata.

Gemini Diffusion può generare da 1.000 a 2.000 token al secondo. Al contrario, Gemini 2.5 Flash ha una velocità di output media di 272,4 token al secondo. Inoltre, gli errori di generazione possono essere corretti durante il processo di raffinazione, migliorando la precisione e riducendo il numero di allucinazioni. Potrebbero esserci dei compromessi in termini di precisione e controllo a livello di token; tuttavia, l'aumento di velocità rappresenterà un punto di svolta per numerose applicazioni.

Come funziona la generazione di testo basata sulla diffusione?

Durante l'addestramento, i DLM funzionano corrompendo gradualmente una frase con rumore di fondo in molti passaggi, fino a rendere la frase originale completamente irriconoscibile. Il modello viene quindi addestrato a invertire questo processo, passo dopo passo, ricostruendo la frase originale a partire da versioni sempre più rumorose. Attraverso il raffinamento iterativo, impara a modellare l'intera distribuzione di frasi plausibili nei dati di addestramento.

Sebbene i dettagli specifici di Gemini Diffusion non siano ancora stati resi noti, la tipica metodologia di addestramento per un modello di diffusione prevede le seguenti fasi chiave:

Diffusione diretta: con ogni campione nel set di dati di addestramento, il rumore viene aggiunto progressivamente nel corso di più cicli (spesso da 500 a 1.000) finché non diventa indistinguibile dal rumore casuale.

Diffusione inversa: il modello impara a invertire ogni fase del processo di creazione del rumore, imparando essenzialmente a "rimuovere il rumore" da una frase corrotta un passaggio alla volta, ripristinando infine la struttura originale.

Questo processo viene ripetuto milioni di volte con campioni e livelli di rumore diversi, consentendo al modello di apprendere una funzione di denoising affidabile.

Una volta addestrato, il modello è in grado di generare frasi completamente nuove. I DLM generalmente richiedono una condizione o un input, come un prompt, un'etichetta di classe o un embedding, per guidare la generazione verso i risultati desiderati. La condizione viene inserita in ogni fase del processo di denoising, che trasforma una macchia iniziale di rumore in un testo strutturato e coerente.

In un'intervista con VentureBeat, Brendan O'Donoghue, ricercatore presso Google DeepMind e uno dei responsabili del progetto Gemini Diffusion, ha illustrato alcuni dei vantaggi delle tecniche basate sulla diffusione rispetto all'autoregressione. Secondo O'Donoghue, i principali vantaggi delle tecniche di diffusione sono i seguenti:

  • Latenze inferiori: i modelli di diffusione possono produrre una sequenza di token in molto meno tempo rispetto ai modelli autoregressivi.
  • Calcolo adattivo: i modelli di diffusione convergeranno verso una sequenza di token a velocità diverse a seconda della difficoltà del compito. Ciò consente al modello di consumare meno risorse (e avere latenze inferiori) per i compiti facili e di utilizzarne di più per quelli più difficili.
  • Ragionamento non causale: grazie all'attenzione bidirezionale del denoiser, i token possono occuparsi di token futuri all'interno dello stesso blocco di generazione. Ciò consente il ragionamento non causale e consente al modello di apportare modifiche globali all'interno di un blocco per produrre un testo più coerente.
  • Raffinamento iterativo / autocorrezione: il processo di denoising prevede il campionamento, che può introdurre errori proprio come nei modelli autoregressivi. Tuttavia, a differenza dei modelli autoregressivi, i token vengono ritrasmessi al denoiser, che ha quindi l'opportunità di correggere l'errore.

O'Donoghue ha anche evidenziato i principali svantaggi: "costi di servizio più elevati e time-to-first-token (TTFT) leggermente più elevato, poiché i modelli autoregressivi produrranno immediatamente il primo token. Per quanto riguarda la diffusione, il primo token può apparire solo quando l'intera sequenza di token è pronta".

Google afferma che le prestazioni di Gemini Diffusion sono paragonabili a quelle di Gemini 2.0 Flash-Lite .

Segno di riferimento Tipo Diffusione dei Gemelli Gemini 2.0 Flash-Lite
LiveCodeBench (v6) Codice 30,9% 28,5%
BigCodeBench Codice 45,4% 45,8%
LBPP (v2) Codice 56,8% 56,0%
SWE-Bench verificato* Codice 22,9% 28,5%
Valutazione umana Codice 89,6% 90,2%
MBPP Codice 76,0% 75,8%
GPQA Diamond Scienza 40,4% 56,5%
AIME 2025 Matematica 23,3% 20,0%
BIG-Bench Extra Hard Ragionamento 15,0% 21,0%
MMLU globale (Lite) Multilingue 69,1% 79,0%

* Valutazione non agentiva (modifica solo a turno singolo), lunghezza massima del prompt di 32K.

I due modelli sono stati confrontati utilizzando diversi benchmark, con punteggi basati sul numero di volte in cui il modello ha prodotto la risposta corretta al primo tentativo. Gemini Diffusion ha ottenuto buoni risultati nei test di programmazione e matematica, mentre Gemini 2.0 Flash-lite si è dimostrato migliore in termini di ragionamento, conoscenze scientifiche e capacità multilingue.

Con l'evoluzione di Gemini Diffusion, non c'è motivo di pensare che le sue prestazioni non raggiungeranno quelle di modelli più consolidati. Secondo O'Donoghue, il divario tra le due tecniche è "sostanzialmente colmato in termini di prestazioni di benchmark, almeno alle dimensioni relativamente ridotte a cui siamo arrivati. In effetti, la diffusione potrebbe presentare un vantaggio in termini di prestazioni in alcuni domini in cui la coerenza non locale è importante, ad esempio nella codifica e nel ragionamento".

Test della diffusione dei Gemelli

A VentureBeat è stato concesso l'accesso alla demo sperimentale. Quando abbiamo messo alla prova Gemini Diffusion, la prima cosa che abbiamo notato è stata la velocità. Eseguendo i prompt suggeriti da Google, tra cui la creazione di app HTML interattive come Xylophone e Planet Tac Toe, ogni richiesta è stata completata in meno di tre secondi, con velocità che andavano da 600 a 1.300 token al secondo.

Per testarne le prestazioni con un'applicazione reale, abbiamo chiesto a Gemini Diffusion di creare un'interfaccia di video chat con il seguente prompt:

 Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.

In meno di due secondi, Gemini Diffusion ha creato un'interfaccia funzionante con un'anteprima video e un misuratore audio.

Sebbene non si sia trattato di un'implementazione complessa, potrebbe essere l'inizio di un MVP che può essere completato con un po' di ulteriore supporto. Si noti che anche Gemini 2.5 Flash ha prodotto un'interfaccia funzionante, sebbene a un ritmo leggermente inferiore (circa sette secondi).

Gemini Diffusion offre anche "Modifica istantanea", una modalità in cui testo o codice possono essere incollati e modificati in tempo reale con un intervento minimo. La Modifica istantanea è efficace per molti tipi di editing testuale, tra cui la correzione grammaticale, l'aggiornamento del testo per diversi target di lettori o l'aggiunta di parole chiave SEO. È utile anche per attività come il refactoring del codice, l'aggiunta di nuove funzionalità alle applicazioni o la conversione di una base di codice esistente in un linguaggio diverso.

Si può affermare con certezza che qualsiasi applicazione che richieda tempi di risposta rapidi trarrà beneficio dalla tecnologia DLM. Questo include applicazioni in tempo reale e a bassa latenza, come l'intelligenza artificiale conversazionale e i chatbot, la trascrizione e la traduzione in tempo reale, o gli assistenti di programmazione e di completamento automatico IDE. Secondo O'Donoghue, con applicazioni che sfruttano "l'editing in linea, ad esempio prendendo un testo e apportando alcune modifiche sul posto, i modelli di diffusione sono applicabili in modi in cui i modelli autoregressivi non lo sono". I DLM presentano inoltre un vantaggio con problemi di ragionamento, matematica e programmazione, grazie al "ragionamento non causale offerto dall'attenzione bidirezionale".

I DLM sono ancora agli inizi; tuttavia, la tecnologia può potenzialmente trasformare il modo in cui vengono costruiti i modelli linguistici. Non solo generano testo a una velocità molto più elevata rispetto ai modelli autoregressivi, ma la loro capacità di tornare indietro e correggere gli errori significa che, in futuro, potrebbero anche produrre risultati con maggiore accuratezza.

venturebeat

venturebeat

Notizie simili

Tutte le notizie
Animated ArrowAnimated ArrowAnimated Arrow