Más allá de la arquitectura GPT: Por qué el enfoque de difusión de Google podría transformar la implementación de LLM

Únase al evento en el que los líderes empresariales confían desde hace casi dos décadas. VB Transform reúne a quienes desarrollan una verdadera estrategia de IA empresarial. Más información.
El mes pasado, junto con un conjunto completo de nuevas herramientas e innovaciones de IA , Google DeepMind presentó Gemini Diffusion . Este modelo de investigación experimental utiliza un enfoque basado en la difusión para generar texto. Tradicionalmente, los modelos de lenguaje grande (LLM) como GPT y el propio Gemini se han basado en la autorregresión, un enfoque paso a paso donde cada palabra se genera en función de la anterior. Los modelos de lenguaje de difusión (DLM) , también conocidos como modelos de lenguaje grande basados en la difusión (dLLM), aprovechan un método más común en la generación de imágenes, comenzando con ruido aleatorio y refinándolo gradualmente hasta obtener una salida coherente. Este enfoque aumenta drásticamente la velocidad de generación y puede mejorar la coherencia y la consistencia.
Gemini Diffusion está actualmente disponible como una demostración experimental; regístrese en la lista de espera aquí para obtener acceso .
(Nota del editor: Analizaremos cambios de paradigma como los modelos de lenguaje basados en la difusión (y lo que se necesita para ejecutarlos en producción) en VB Transform , del 24 al 25 de junio en San Francisco , junto con Google DeepMind, LinkedIn y otros líderes de inteligencia artificial empresarial).
La difusión y la autorregresión son enfoques fundamentalmente diferentes. El enfoque autorregresivo genera texto secuencialmente, prediciendo los tokens uno a uno. Si bien este método garantiza una coherencia sólida y un seguimiento del contexto, puede requerir un alto consumo computacional y ser lento, especialmente para contenido extenso.
Los modelos de difusión, en cambio, parten de ruido aleatorio, que se va desruidoizando gradualmente hasta obtener una salida coherente. Aplicada al lenguaje, esta técnica ofrece varias ventajas. Se pueden procesar bloques de texto en paralelo, lo que podría generar segmentos u oraciones completas a una velocidad mucho mayor.
Según se informa, Gemini Diffusion puede generar entre 1000 y 2000 tokens por segundo. En cambio, Gemini 2.5 Flash tiene una velocidad de salida promedio de 272,4 tokens por segundo. Además, los errores de generación se pueden corregir durante el proceso de refinamiento, lo que mejora la precisión y reduce el número de alucinaciones. Puede haber desventajas en cuanto a la precisión granular y el control a nivel de token; sin embargo, el aumento de velocidad supondrá un cambio radical para numerosas aplicaciones.
¿Cómo funciona la generación de texto basada en la difusión?Durante el entrenamiento, los DLM funcionan corrompiendo gradualmente una oración con ruido a lo largo de varios pasos, hasta que la oración original se vuelve completamente irreconocible. El modelo se entrena entonces para revertir este proceso, paso a paso, reconstruyendo la oración original a partir de versiones con mayor ruido. Mediante el refinamiento iterativo, aprende a modelar la distribución completa de oraciones plausibles en los datos de entrenamiento.
Si bien aún no se han revelado los detalles de Gemini Diffusion, la metodología de entrenamiento típica para un modelo de difusión implica estas etapas clave:
Difusión hacia adelante: con cada muestra en el conjunto de datos de entrenamiento, se agrega ruido progresivamente a lo largo de múltiples ciclos (a menudo de 500 a 1000) hasta que se vuelve indistinguible del ruido aleatorio.
Difusión inversa: el modelo aprende a revertir cada paso del proceso de ruido, aprendiendo esencialmente cómo “eliminar el ruido” de una oración corrupta etapa por etapa, restaurando eventualmente la estructura original.
Este proceso se repite millones de veces con diversas muestras y niveles de ruido, lo que permite que el modelo aprenda una función de eliminación de ruido confiable.
Una vez entrenado, el modelo es capaz de generar oraciones completamente nuevas. Los DLM generalmente requieren una condición o entrada, como una indicación, una etiqueta de clase o una incrustación, para guiar la generación hacia los resultados deseados. La condición se inyecta en cada paso del proceso de eliminación de ruido, lo que transforma una masa inicial de ruido en un texto estructurado y coherente.
En una entrevista con VentureBeat, Brendan O'Donoghue, investigador de Google DeepMind y uno de los líderes del proyecto Gemini Diffusion, explicó algunas de las ventajas de las técnicas de difusión en comparación con la autorregresión. Según O'Donoghue, las principales ventajas de las técnicas de difusión son las siguientes:
- Latencias más bajas: los modelos de difusión pueden producir una secuencia de tokens en mucho menos tiempo que los modelos autorregresivos.
- Computación adaptativa: Los modelos de difusión convergerán a una secuencia de tokens a diferentes velocidades según la dificultad de la tarea. Esto permite que el modelo consuma menos recursos (y tenga latencias más bajas) en tareas fáciles y más en las más difíciles.
- Razonamiento no causal: Gracias a la atención bidireccional del denoiser, los tokens pueden atender a tokens futuros dentro del mismo bloque de generación. Esto permite el razonamiento no causal y permite al modelo realizar ediciones globales dentro de un bloque para producir un texto más coherente.
- Refinamiento iterativo/autocorrección: El proceso de eliminación de ruido implica muestreo, lo cual puede introducir errores, al igual que en los modelos autorregresivos. Sin embargo, a diferencia de estos, los tokens se devuelven al eliminador de ruido, que entonces tiene la oportunidad de corregir el error.
O'Donoghue también señaló las principales desventajas: «Mayor costo de entrega y un tiempo de obtención del primer token (TTFT) ligeramente mayor, ya que los modelos autorregresivos producirán el primer token de inmediato. Para la difusión, el primer token solo puede aparecer cuando toda la secuencia de tokens esté lista».
Google dice que el rendimiento de Gemini Diffusion es comparable al de Gemini 2.0 Flash-Lite .
Punto de referencia | Tipo | Difusión de Géminis | Gemini 2.0 Flash-Lite |
---|---|---|---|
LiveCodeBench (v6) | Código | 30,9% | 28,5% |
BigCodeBench | Código | 45,4% | 45,8% |
LBPP (v2) | Código | 56,8% | 56,0% |
SWE-Bench verificado* | Código | 22,9% | 28,5% |
Evaluación humana | Código | 89,6% | 90,2% |
MBPP | Código | 76.0% | 75,8% |
Diamante GPQA | Ciencia | 40,4% | 56,5% |
AIME 2025 | Matemáticas | 23,3% | 20.0% |
Banco BIG Extra Duro | Razonamiento | 15.0% | 21.0% |
MMLU global (Lite) | Plurilingüe | 69,1% | 79.0% |
* Evaluación no agente (edición de un solo turno solamente), longitud máxima de solicitud de 32 K.
Los dos modelos se compararon mediante diversos puntos de referencia, con puntuaciones basadas en el número de veces que el modelo acertó la respuesta en el primer intento. Gemini Diffusion obtuvo buenos resultados en pruebas de programación y matemáticas, mientras que Gemini 2.0 Flash-lite obtuvo la ventaja en razonamiento, conocimiento científico y capacidades multilingües.
A medida que Gemini Diffusion evoluciona, no hay razón para pensar que su rendimiento no alcanzará el de los modelos más consolidados. Según O'Donoghue, la diferencia entre ambas técnicas está prácticamente cerrada en términos de rendimiento de referencia, al menos en los tamaños relativamente pequeños a los que hemos escalado. De hecho, la difusión podría ofrecer cierta ventaja de rendimiento en algunos ámbitos donde la consistencia no local es importante, por ejemplo, la codificación y el razonamiento.
Prueba de difusión de Géminis
VentureBeat obtuvo acceso a la demo experimental. Al probar Gemini Diffusion, lo primero que notamos fue su velocidad. Al ejecutar las indicaciones sugeridas por Google, incluyendo la creación de aplicaciones HTML interactivas como Xylophone y Planet Tac Toe, cada solicitud se completó en menos de tres segundos, con velocidades que oscilaban entre 600 y 1300 tokens por segundo.
Para probar su rendimiento con una aplicación del mundo real, le pedimos a Gemini Diffusion que creara una interfaz de chat de video con el siguiente mensaje:
Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.
En menos de dos segundos, Gemini Diffusion creó una interfaz funcional con una vista previa de video y un medidor de audio.
Aunque no fue una implementación compleja, podría ser el inicio de un MVP que se puede completar con un poco más de ayuda. Cabe destacar que Gemini 2.5 Flash también generó una interfaz funcional, aunque a un ritmo ligeramente más lento (aproximadamente siete segundos).
Gemini Diffusion también cuenta con "Edición instantánea", un modo que permite pegar y editar texto o código en tiempo real con mínimas indicaciones. La Edición instantánea es eficaz para diversos tipos de edición de texto, como corregir la gramática, actualizar el texto para adaptarse a diferentes perfiles de lector o añadir palabras clave SEO. También es útil para tareas como refactorizar código, añadir nuevas funciones a las aplicaciones o convertir un código base existente a otro lenguaje.
Se puede afirmar con seguridad que cualquier aplicación que requiera un tiempo de respuesta rápido se beneficia de la tecnología DLM. Esto incluye aplicaciones en tiempo real y de baja latencia, como la IA conversacional y los chatbots, la transcripción y traducción en vivo, o los asistentes de autocompletado y codificación de IDE. Según O'Donoghue, en aplicaciones que aprovechan la edición en línea, por ejemplo, tomando un fragmento de texto y realizando cambios in situ, los modelos de difusión son aplicables de maneras que los modelos autorregresivos no lo son. Los DLM también presentan una ventaja en problemas de razonamiento, matemáticas y codificación, gracias al razonamiento no causal que ofrece la atención bidireccional.
Los DLM aún están en sus inicios; sin embargo, esta tecnología tiene el potencial de transformar la construcción de modelos lingüísticos. No solo generan texto a una velocidad mucho mayor que los modelos autorregresivos, sino que su capacidad para corregir errores significa que, con el tiempo, también podrían producir resultados con mayor precisión.
venturebeat