AlphaEvolve di Google: l'agente di intelligenza artificiale che ha recuperato lo 0,7% del calcolo di Google e come copiarlo

Iscriviti alle nostre newsletter giornaliere e settimanali per ricevere gli ultimi aggiornamenti e contenuti esclusivi sulla copertura leader del settore dell'intelligenza artificiale. Scopri di più
Il nuovo AlphaEvolve di Google mostra cosa succede quando un agente di intelligenza artificiale passa dalla fase di demo in laboratorio a quella di produzione, sotto la guida di una delle aziende tecnologiche più talentuose.
Sviluppato da DeepMind di Google, il sistema riscrive autonomamente il codice critico e si autofinanzia già all'interno di Google. Ha infranto un record di 56 anni nella moltiplicazione di matrici (il fulcro di molti carichi di lavoro di machine learning) e recuperato lo 0,7% della capacità di elaborazione nei data center globali dell'azienda.
Questi risultati importanti sono importanti, ma la lezione più profonda per i leader tecnologici aziendali è il modo in cui AlphaEvolve li realizza. La sua architettura – controller, modelli a rapida elaborazione, modelli a pensiero profondo, valutatori automatizzati e memoria versionata – illustra il tipo di sistema di produzione che rende gli agenti autonomi sicuri da implementare su larga scala.
La tecnologia di intelligenza artificiale di Google è probabilmente seconda a nessuno . Quindi il problema è capire come imparare da essa, o addirittura utilizzarla direttamente. Google afferma che è in arrivo un programma di accesso anticipato per i partner accademici e che si sta valutando una "disponibilità più ampia ", ma i dettagli sono scarsi. Fino ad allora, AlphaEvolve è un modello di best practice: se si desiderano agenti che gestiscano carichi di lavoro di alto valore, saranno necessari livelli di orchestrazione, test e protezioni comparabili.
Consideriamo solo la vittoria del data center. Google non metterà un prezzo sullo 0,7% recuperato, ma il suo capex annuale ammonta a decine di miliardi di dollari . Anche una stima approssimativa stima i risparmi in centinaia di milioni all'anno, sufficienti, come ha osservato lo sviluppatore indipendente Sam Witteveen nel nostro recente podcast , a pagare l'addestramento di uno dei modelli Gemini di punta, il cui costo stimato per una versione come Gemini Ultra supera i 191 milioni di dollari .
VentureBeat è stato il primo a dare notizia di AlphaEvolve all'inizio di questa settimana. Ora approfondiremo il funzionamento del sistema, quali sono i veri limiti dell'ingegneria e quali sono i passi concreti che le aziende possono intraprendere per costruire (o acquistare) qualcosa di simile.
AlphaEvolve si basa su quello che è meglio descritto come un sistema operativo ad agenti: una pipeline distribuita e asincrona progettata per il miglioramento continuo su larga scala. I suoi componenti principali sono un controller, una coppia di modelli linguistici di grandi dimensioni (Gemini Flash per l'ampiezza; Gemini Pro per la profondità), un database di memoria di programma con versioning e una flotta di worker di valutazione, tutti ottimizzati per un throughput elevato anziché per una bassa latenza.

Questa architettura non è concettualmente nuova, ma l'esecuzione sì. "È semplicemente un'esecuzione incredibilmente buona", afferma Witteveen.
Il documento AlphaEvolve descrive l'orchestratore come un "algoritmo evolutivo che sviluppa gradualmente programmi che migliorano il punteggio sulle metriche di valutazione automatizzate" (p. 3); in breve, una "pipeline autonoma di LLM il cui compito è migliorare un algoritmo apportando modifiche dirette al codice" (p. 1).
Conclusione per le aziende: se i piani dell'agente includono esecuzioni non supervisionate di attività di alto valore, è opportuno pianificare un'infrastruttura simile: code di lavoro, un archivio di memoria con versione, tracciamento del service mesh e sandbox sicuro per qualsiasi codice prodotto dall'agente.
Un elemento chiave di AlphaEvolve è il suo rigoroso framework di valutazione. Ogni iterazione proposta dalla coppia di LLM viene accettata o rifiutata in base a una funzione di "valutazione" fornita dall'utente che restituisce metriche valutabili dalla macchina. Questo sistema di valutazione inizia con controlli di unit test ultraveloci su ogni modifica proposta al codice – test semplici e automatici (simili ai test di unit test già scritti dagli sviluppatori) che verificano che lo snippet sia ancora compilabile e produca le risposte corrette su una manciata di micro-input – prima di passare i risultati a benchmark più complessi e revisioni generate dagli LLM. Questo processo viene eseguito in parallelo, in modo che la ricerca rimanga veloce e sicura.
In breve: lasciate che i modelli suggeriscano soluzioni, quindi verificatele tutte con test affidabili. AlphaEvolve supporta anche l'ottimizzazione multi-obiettivo (ottimizzando simultaneamente latenza e accuratezza), sviluppando programmi che raggiungono più metriche contemporaneamente. Contrariamente a quanto si potrebbe pensare, bilanciare più obiettivi può migliorare una singola metrica target incoraggiando soluzioni più diversificate.
Conclusione per le aziende: gli agenti di produzione necessitano di strumenti di valutazione deterministici. Che si tratti di test unitari, simulatori completi o analisi del traffico canary, i valutatori automatici rappresentano sia la vostra rete di sicurezza che il vostro motore di crescita. Prima di lanciare un progetto agentico, chiedetevi: "Abbiamo una metrica in base alla quale l'agente può autovalutarsi?"
AlphaEvolve affronta ogni problema di programmazione con un ritmo a due modelli. In primo luogo, Gemini Flash genera bozze rapide, fornendo al sistema un ampio insieme di idee da esplorare. Successivamente, Gemini Pro analizza tali bozze in modo più approfondito e restituisce un insieme più ristretto di candidati più validi. Entrambi i modelli sono alimentati da un "prompt builder" leggero, uno script di supporto che assembla le domande visualizzate da ciascun modello. Combina tre tipi di contesto: tentativi di codice precedenti salvati in un database di progetto, eventuali guardrail o regole definite dal team di ingegneri e materiale esterno pertinente come articoli di ricerca o note degli sviluppatori. Con questo contesto più ricco, Gemini Flash può spaziare ampiamente, mentre Gemini Pro si concentra sulla qualità.
A differenza di molte demo di agenti che modificano una funzione alla volta, AlphaEvolve modifica interi repository. Descrive ogni modifica come un blocco diff standard – lo stesso formato di patch che gli ingegneri inviano a GitHub – in modo da poter intervenire su decine di file senza perdere traccia. Successivamente, test automatizzati verificano se la patch è valida. Nel corso di cicli ripetuti, la memoria dell'agente relativa a successi e fallimenti aumenta, quindi propone patch migliori e spreca meno risorse di calcolo in vicoli ciechi.
Conclusione per le aziende: lasciate che modelli più economici e veloci gestiscano il brainstorming, quindi affidatevi a un modello più efficiente per perfezionare le idee migliori. Conservate ogni tentativo in una cronologia consultabile, perché quella memoria velocizza il lavoro successivo e può essere riutilizzata da più team. Di conseguenza, i fornitori si stanno affrettando a fornire agli sviluppatori nuovi strumenti per aspetti come la memoria. Prodotti come OpenMemory MCP , che fornisce un archivio di memoria portatile, e le nuove API di memoria a lungo e breve termine di LlamaIndex stanno rendendo questo tipo di contesto persistente quasi facile da integrare quanto il logging.
L'agente di ingegneria del software Codex-1 di OpenAI, anch'esso rilasciato oggi, sottolinea lo stesso schema. Avvia attività parallele all'interno di una sandbox sicura, esegue test unitari e restituisce bozze di pull request, in pratica un'eco specifica del codice del più ampio ciclo di ricerca e valutazione di AlphaEvolve.
I risultati tangibili di AlphaEvolve (il recupero dello 0,7% della capacità del data center, la riduzione del 23% del runtime del kernel di training di Gemini, l'accelerazione del 32% di FlashAttention e la semplificazione della progettazione TPU) hanno in comune una caratteristica: puntano a domini con metriche precise.
Per la pianificazione dei data center, AlphaEvolve ha sviluppato un'euristica che è stata valutata utilizzando un simulatore dei data center di Google basato sui carichi di lavoro storici. Per l'ottimizzazione del kernel, l'obiettivo era ridurre al minimo il runtime effettivo sugli acceleratori TPU su un set di dati di forme di input del kernel realistiche.
Conclusioni per le imprese: Quando si inizia il percorso verso l'intelligenza artificiale agentica, è necessario considerare innanzitutto i flussi di lavoro in cui "migliore" è un valore quantificabile che il sistema può elaborare, che si tratti di latenza, costo, tasso di errore o throughput. Questo approccio consente la ricerca automatizzata e l'implementazione di soluzioni a basso rischio, poiché l'output dell'agente (spesso codice leggibile, come nel caso di AlphaEvolve) può essere integrato nelle pipeline di revisione e convalida esistenti.
Questa chiarezza consente all'agente di migliorarsi e di dimostrare un valore inequivocabile.
Sebbene i risultati di AlphaEvolve siano incoraggianti, il documento di Google è chiaro anche in merito alla sua portata e ai suoi requisiti.
Il limite principale è la necessità di un valutatore automatizzato; i problemi che richiedono sperimentazione manuale o feedback "wet-lab" sono attualmente esclusi da questo approccio specifico. Il sistema può consumare una quantità di elaborazione significativa – "nell'ordine delle 100 ore di elaborazione per valutare qualsiasi nuova soluzione" (articolo AlphaEvolve, pagina 8 ), il che richiede parallelizzazione e un'attenta pianificazione della capacità.
Prima di allocare un budget significativo a sistemi agenti complessi, i leader tecnici devono porsi domande critiche:
- Problema valutabile dalla macchina? Abbiamo una metrica chiara e automatizzabile in base alla quale l'agente possa valutare le proprie prestazioni?
- Capacità di calcolo? Possiamo permetterci il ciclo interno di generazione, valutazione e perfezionamento, potenzialmente gravoso in termini di elaborazione, soprattutto durante le fasi di sviluppo e addestramento?
- Preparazione del codice sorgente e della memoria? Il codice sorgente è strutturato per modifiche iterative, possibilmente basate su differenze? E siete in grado di implementare i sistemi di memoria strumentati, vitali affinché un agente possa apprendere dalla sua storia evolutiva?
Conclusioni per le aziende: la crescente attenzione rivolta a una gestione affidabile dell'identità e dell'accesso degli agenti, come si vede in piattaforme come Frontegg, Auth0 e altre, evidenzia anche la maturazione dell'infrastruttura necessaria per distribuire agenti che interagiscono in modo sicuro con più sistemi aziendali.
Il messaggio di AlphaEvolve per i team aziendali è multiforme. Innanzitutto, il sistema operativo basato sugli agenti è ora molto più importante dell'intelligenza dei modelli. Il progetto di Google indica tre pilastri imprescindibili:
- Valutatori deterministici che assegnano all'agente un punteggio inequivocabile ogni volta che apporta una modifica.
- Orchestrazione di lunga durata in grado di gestire modelli di "bozza" veloci come Gemini Flash con modelli più lenti e rigorosi, che si tratti dello stack di Google o di un framework come LangGraph di LangChain.
- Memoria persistente, così ogni iterazione si basa sulla precedente anziché dover riapprendere da zero.
Le aziende che dispongono già di logging, test harness e repository di codice versionato sono più vicine di quanto pensino. Il passo successivo è collegare queste risorse a un ciclo di valutazione self-service in modo che più soluzioni generate da agenti possano competere e che solo la patch con il punteggio più alto venga distribuita.
Come ha dichiarato Anurag Dhingra, vicepresidente e direttore generale di Enterprise Connectivity and Collaboration di Cisco, a VentureBeat in un'intervista questa settimana: "Sta accadendo, è molto, molto reale", ha detto riferendosi alle aziende che utilizzano agenti di intelligenza artificiale in produzione, magazzini e contact center. "Non è qualcosa che accadrà nel futuro. Sta accadendo già oggi". Ha avvertito che, man mano che questi agenti diventeranno più pervasivi, svolgendo "un lavoro simile a quello umano", la pressione sui sistemi esistenti sarà immensa: "Il traffico di rete andrà alle stelle", ha affermato Dhingra. La vostra rete, il vostro budget e il vostro vantaggio competitivo probabilmente risentiranno di questa pressione prima che il ciclo di hype si plachi. Iniziate a testare un caso d'uso contenuto e basato su metriche in questo trimestre, poi scalate ciò che funziona.
Guarda il podcast video che ho realizzato con lo sviluppatore Sam Witteveen, in cui approfondiamo gli agenti di livello produttivo e spieghiamo come AlphaEvolve stia aprendo la strada:
Se vuoi fare colpo sul tuo capo, VB Daily è la soluzione che fa per te. Ti offriamo informazioni privilegiate su ciò che le aziende stanno facendo con l'IA generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere spunti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per l'iscrizione. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat