AlphaEvolve de Google: el agente de IA que recuperó el 0,7 % de la capacidad computacional de Google y cómo copiarlo

Únase a nuestros boletines diarios y semanales para recibir las últimas novedades y contenido exclusivo sobre la cobertura líder en IA del sector. Más información.
El nuevo AlphaEvolve de Google muestra lo que sucede cuando un agente de IA pasa de la demostración de laboratorio al trabajo de producción, y tiene a una de las empresas de tecnología más talentosas al mando.
Desarrollado por DeepMind de Google, el sistema reescribe código crítico de forma autónoma y ya se amortiza dentro de Google. Rompió un récord de 56 años en multiplicación de matrices (el núcleo de muchas cargas de trabajo de aprendizaje automático) y recuperó el 0,7 % de la capacidad de cómputo en los centros de datos globales de la compañía.
Estas hazañas destacadas son importantes, pero la lección más importante para los líderes tecnológicos empresariales es cómo AlphaEvolve las logra. Su arquitectura (controlador, modelos de borrador rápido, modelos de pensamiento profundo, evaluadores automatizados y memoria versionada) ilustra el tipo de infraestructura de producción que permite implementar agentes autónomos de forma segura a gran escala.
La tecnología de IA de Google es indiscutiblemente insuperable . Por lo tanto, la clave está en descubrir cómo aprender de ella, o incluso usarla directamente. Google afirma que pronto lanzará un Programa de Acceso Anticipado para socios académicos y que se está explorando una mayor disponibilidad , pero los detalles son escasos. Hasta entonces, AlphaEvolve es un modelo de buenas prácticas: si desea agentes que aborden cargas de trabajo de alto valor, necesitará orquestación, pruebas y medidas de seguridad comparables.
Consideremos solo la ganancia del centro de datos. Google no pondrá precio al 0,7% recuperado, pero su inversión anual en capital asciende a decenas de miles de millones de dólares . Incluso una estimación aproximada sitúa el ahorro en cientos de millones anuales, suficiente, como señaló el desarrollador independiente Sam Witteveen en nuestro reciente podcast , para financiar el entrenamiento de uno de los modelos insignia de Gemini, cuyo coste se estima en más de 191 millones de dólares para una versión como Gemini Ultra.
VentureBeat fue el primero en informar sobre las novedades de AlphaEvolve a principios de esta semana. Ahora profundizaremos en cómo funciona el sistema, dónde se encuentra realmente el listón de la ingeniería y los pasos concretos que las empresas pueden dar para construir (o comprar) algo comparable.
AlphaEvolve se ejecuta en lo que se describe mejor como un sistema operativo de agente: un flujo de trabajo distribuido y asíncrono diseñado para la mejora continua a escala. Sus componentes principales son un controlador, dos modelos de lenguaje extensos (Gemini Flash para mayor amplitud; Gemini Pro para mayor profundidad), una base de datos versionada de memoria de programa y un conjunto de trabajadores evaluadores, todos optimizados para un alto rendimiento en lugar de solo una baja latencia.

Esta arquitectura no es conceptualmente nueva, pero su ejecución sí lo es. «Es una ejecución increíblemente buena», afirma Witteveen.
El artículo de AlphaEvolve describe al orquestador como un “algoritmo evolutivo que desarrolla gradualmente programas que mejoran la puntuación en las métricas de evaluación automatizadas” (p. 3); en resumen, una “tubería autónoma de LLM cuya tarea es mejorar un algoritmo realizando cambios directos en el código” (p. 1).
Conclusión para las empresas: si los planes de su agente incluyen ejecuciones no supervisadas en tareas de alto valor, planifique una infraestructura similar: colas de trabajos, un almacén de memoria versionado, seguimiento de malla de servicios y un entorno aislado seguro para cualquier código que produzca el agente.
Un elemento clave de AlphaEvolve es su riguroso marco de evaluación. Cada iteración propuesta por el par de LLM se acepta o rechaza según una función de "evaluación" proporcionada por el usuario, que devuelve métricas evaluables por máquina. Este sistema de evaluación comienza con comprobaciones ultrarrápidas de pruebas unitarias para cada cambio de código propuesto: pruebas sencillas y automáticas (similares a las pruebas unitarias que ya escriben los desarrolladores) que verifican que el fragmento se compila y genera las respuestas correctas con unas pocas microentradas. Esto antes de pasar los fragmentos supervivientes a pruebas comparativas más rigurosas y revisiones generadas por los LLM. Esto se ejecuta en paralelo, lo que garantiza una búsqueda rápida y segura.
En resumen: Deja que los modelos sugieran soluciones y luego verifica cada una con pruebas de confianza. AlphaEvolve también admite la optimización multiobjetivo (optimizando la latencia y la precisión simultáneamente), desarrollando programas que alcanzan varias métricas a la vez. Aunque parezca contradictorio, equilibrar múltiples objetivos puede mejorar una única métrica objetivo al fomentar soluciones más diversas.
Conclusión para las empresas: Los agentes de producción necesitan evaluadores deterministas, ya sean pruebas unitarias, simuladores completos o análisis de tráfico canario. Los evaluadores automatizados son tanto su red de seguridad como su motor de crecimiento. Antes de lanzar un proyecto de agencia, pregúntese: "¿Disponemos de una métrica con la que el agente pueda evaluarse a sí mismo?"
AlphaEvolve aborda cualquier problema de programación con un ritmo de dos modelos. Primero, Gemini Flash genera borradores rápidos, lo que proporciona al sistema un amplio conjunto de ideas para explorar. Luego, Gemini Pro estudia esos borradores con mayor profundidad y devuelve un conjunto más reducido de candidatos más sólidos. Ambos modelos se alimentan con un ligero "generador de indicaciones", un script auxiliar que compila la pregunta que cada modelo ve. Combina tres tipos de contexto: intentos de código anteriores guardados en una base de datos del proyecto, cualquier restricción o regla que el equipo de ingeniería haya escrito y material externo relevante, como artículos de investigación o notas de desarrollo. Con este contexto más completo, Gemini Flash puede explorar con mayor amplitud, mientras que Gemini Pro se centra en la calidad.
A diferencia de muchas demostraciones de agentes que ajustan una función a la vez, AlphaEvolve edita repositorios completos. Describe cada cambio como un bloque diff estándar (el mismo formato de parche que los ingenieros suben a GitHub), lo que le permite acceder a docenas de archivos sin perder el rastro. Posteriormente, pruebas automatizadas determinan si el parche se mantiene. Con ciclos repetidos, la memoria del agente de éxitos y fracasos aumenta, por lo que propone mejores parches y reduce el consumo de recursos en callejones sin salida.
Consejo para las empresas: Permita que modelos más económicos y rápidos gestionen la lluvia de ideas y luego recurra a un modelo más capaz para refinar las mejores. Conserve cada prueba en un historial con capacidad de búsqueda, ya que esa memoria agiliza el trabajo posterior y puede reutilizarse entre equipos. Por ello, los proveedores se apresuran a proporcionar a los desarrolladores nuevas herramientas para aspectos como la memoria. Productos como OpenMemory MCP , que proporciona un almacenamiento de memoria portátil, y las nuevas API de memoria a corto y largo plazo de LlamaIndex hacen que este tipo de contexto persistente sea casi tan fácil de implementar como el registro.
El agente de ingeniería de software Codex-1 de OpenAI, también lanzado hoy, sigue el mismo patrón. Ejecuta tareas paralelas dentro de un entorno de pruebas seguro, ejecuta pruebas unitarias y devuelve borradores de solicitudes de extracción; en realidad, un eco específico del ciclo de búsqueda y evaluación más amplio de AlphaEvolve.
Los logros tangibles de AlphaEvolve (recuperar el 0,7 % de la capacidad del centro de datos, reducir el tiempo de ejecución del kernel de entrenamiento de Gemini en un 23 %, acelerar FlashAttention en un 32 % y simplificar el diseño de TPU) comparten una característica: apuntan a dominios con métricas herméticas.
Para la programación de centros de datos, AlphaEvolve desarrolló una heurística que se evaluó mediante un simulador de centros de datos de Google basado en cargas de trabajo históricas. Para la optimización del kernel, el objetivo era minimizar el tiempo de ejecución real en aceleradores de TPU en un conjunto de datos con formas de entrada de kernel realistas.
Conclusiones para las empresas: Al iniciar su proceso de IA con agentes, considere primero los flujos de trabajo donde "mejor" es un valor cuantificable que su sistema puede calcular, ya sea latencia, coste, tasa de error o rendimiento. Este enfoque permite la búsqueda automatizada y minimiza el riesgo de implementación, ya que el resultado del agente (a menudo código legible, como en el caso de AlphaEvolve) puede integrarse en los procesos de revisión y validación existentes.
Esta claridad permite al agente mejorar y demostrar un valor inequívoco.
Si bien los logros de AlphaEvolve son inspiradores, el documento de Google también es claro sobre su alcance y requisitos.
La principal limitación es la necesidad de un evaluador automatizado; los problemas que requieren experimentación manual o retroalimentación en laboratorios especializados actualmente no están contemplados en este enfoque específico. El sistema puede consumir una cantidad considerable de recursos computacionales, del orden de 100 horas de computación para evaluar cualquier solución nueva (informe de AlphaEvolve, página 8 ), lo que requiere paralelización y una planificación cuidadosa de la capacidad.
Antes de asignar un presupuesto significativo a sistemas de agentes complejos, los líderes técnicos deben plantear preguntas críticas:
- ¿Problema clasificable por máquina? ¿Disponemos de una métrica clara y automatizable con la que el agente pueda evaluar su propio rendimiento?
- ¿Capacidad de cómputo? ¿Podemos permitirnos el ciclo interno de generación, evaluación y refinamiento, potencialmente intensivo en cómputo, especialmente durante la fase de desarrollo y entrenamiento?
- ¿Está preparada la base de código y la memoria? ¿Su base de código está estructurada para modificaciones iterativas, posiblemente basadas en diferencias? ¿Puede implementar los sistemas de memoria instrumentada esenciales para que un agente aprenda de su historial evolutivo?
Conclusión para las empresas: el enfoque creciente en la gestión robusta de la identidad y el acceso de los agentes, como se ve en plataformas como Frontegg, Auth0 y otras, también apunta a la maduración de la infraestructura necesaria para implementar agentes que interactúen de forma segura con múltiples sistemas empresariales.
El mensaje de AlphaEvolve para los equipos empresariales es múltiple. En primer lugar, el sistema operativo que rodea a los agentes es ahora mucho más importante que la inteligencia del modelo. El plan de Google muestra tres pilares imprescindibles:
- Evaluadores deterministas que otorgan al agente una puntuación inequívoca cada vez que realiza un cambio.
- Orquestación de larga duración que puede combinar modelos de “borrador” rápidos como Gemini Flash con modelos más lentos y rigurosos, ya sea la pila de Google o un marco como LangGraph de LangChain.
- Memoria persistente para que cada iteración se base en la anterior en lugar de volver a aprender desde cero.
Las empresas que ya cuentan con registros, herramientas de prueba y repositorios de código versionado están más cerca de lo que creen. El siguiente paso es integrar esos recursos en un ciclo de evaluación de autoservicio para que múltiples soluciones generadas por agentes puedan competir y solo se implemente el parche con la puntuación más alta.
Como declaró Anurag Dhingra, vicepresidente y director general de Conectividad y Colaboración Empresarial de Cisco, a VentureBeat en una entrevista esta semana: "Está sucediendo, es muy real", dijo sobre las empresas que utilizan agentes de IA en fabricación, almacenes y centros de atención al cliente. "No es algo del futuro. Está sucediendo hoy". Advirtió que, a medida que estos agentes se generalicen y realicen un trabajo similar al humano, la presión sobre los sistemas existentes será inmensa: "El tráfico de red se disparará", dijo Dhingra. Es probable que su red, presupuesto y ventaja competitiva sientan esa presión antes de que se calme el ciclo de la publicidad exagerada. Comience a probar un caso de uso controlado y basado en métricas este trimestre; luego, escale lo que funciona.
Mira el video podcast que hice con el desarrollador Sam Witteveen, donde profundizamos en los agentes de nivel de producción y cómo AlphaEvolve está mostrando el camino:
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat