Além da arquitetura GPT: por que a abordagem de difusão do Google pode remodelar a implantação do LLM

Participe do evento que conta com a confiança de líderes empresariais há quase duas décadas. O VB Transform reúne as pessoas que constroem estratégias reais de IA empresarial. Saiba mais

No mês passado, juntamente com um conjunto abrangente de novas ferramentas e inovações de IA , o Google DeepMind revelou o Gemini Diffusion . Este modelo de pesquisa experimental utiliza uma abordagem baseada em difusão para gerar texto. Tradicionalmente, modelos de linguagem de grande porte (LLMs), como o GPT e o próprio Gemini, contam com autorregressão, uma abordagem passo a passo em que cada palavra é gerada com base na anterior. Os modelos de linguagem de difusão (DLMs) , também conhecidos como modelos de linguagem de grande porte baseados em difusão (dLLMs), utilizam um método mais comumente visto na geração de imagens, começando com ruído aleatório e refinando-o gradualmente em uma saída coerente. Essa abordagem aumenta drasticamente a velocidade de geração e pode melhorar a coerência e a consistência.

O Gemini Diffusion está atualmente disponível como uma demonstração experimental; inscreva-se na lista de espera aqui para obter acesso .

(Nota do editor: Desvendaremos mudanças de paradigma, como modelos de linguagem baseados em difusão — e o que é necessário para executá-los em produção — no VB Transform , de 24 a 25 de junho em São Francisco , junto com o Google DeepMind, LinkedIn e outros líderes de IA empresarial.)

Difusão e autorregressão são abordagens fundamentalmente diferentes. A abordagem autorregressiva gera texto sequencialmente, com tokens previstos um de cada vez. Embora esse método garanta forte coerência e rastreamento de contexto, ele pode ser computacionalmente intensivo e lento, especialmente para conteúdo longo.

Os modelos de difusão, por outro lado, começam com ruído aleatório, que é gradualmente eliminado, resultando em uma saída coerente. Quando aplicada à linguagem, a técnica apresenta diversas vantagens. Blocos de texto podem ser processados em paralelo, potencialmente produzindo segmentos ou frases inteiras a uma taxa muito mais alta.

O Gemini Diffusion pode gerar de 1.000 a 2.000 tokens por segundo. Em contraste, o Gemini 2.5 Flash tem uma velocidade média de saída de 272,4 tokens por segundo. Além disso, erros na geração podem ser corrigidos durante o processo de refinamento, melhorando a precisão e reduzindo o número de alucinações. Pode haver compensações em termos de precisão refinada e controle no nível do token; no entanto, o aumento na velocidade será um divisor de águas para inúmeras aplicações.

Como funciona a geração de texto baseada em difusão?

Durante o treinamento, os DLMs funcionam corrompendo gradualmente uma frase com ruído ao longo de várias etapas, até que a frase original se torne completamente irreconhecível. O modelo é então treinado para reverter esse processo, passo a passo, reconstruindo a frase original a partir de versões cada vez mais ruidosas. Por meio do refinamento iterativo, ele aprende a modelar toda a distribuição de frases plausíveis nos dados de treinamento.

Embora os detalhes específicos da Gemini Diffusion ainda não tenham sido divulgados, a metodologia típica de treinamento para um modelo de difusão envolve estas etapas principais:

Difusão direta: com cada amostra no conjunto de dados de treinamento, o ruído é adicionado progressivamente ao longo de vários ciclos (geralmente de 500 a 1.000) até que se torne indistinguível do ruído aleatório.

Difusão reversa: o modelo aprende a reverter cada etapa do processo de ruído, essencialmente aprendendo como “reduzir o ruído” de uma frase corrompida, uma etapa de cada vez, eventualmente restaurando a estrutura original.

Esse processo é repetido milhões de vezes com diversas amostras e níveis de ruído, permitindo que o modelo aprenda uma função de redução de ruído confiável.

Uma vez treinado, o modelo é capaz de gerar frases inteiramente novas. DLMs geralmente exigem uma condição ou entrada, como um prompt, um rótulo de classe ou uma incorporação, para guiar a geração em direção aos resultados desejados. A condição é inserida em cada etapa do processo de redução de ruído, que molda uma mancha inicial de ruído em um texto estruturado e coerente.

Em entrevista ao VentureBeat, Brendan O'Donoghue, pesquisador do Google DeepMind e um dos líderes do projeto Gemini Diffusion, elaborou algumas das vantagens das técnicas baseadas em difusão em comparação à autorregressão. Segundo O'Donoghue, as principais vantagens das técnicas de difusão são as seguintes:

Latências mais baixas: modelos de difusão podem produzir uma sequência de tokens em muito menos tempo do que modelos autorregressivos.
Computação adaptativa: modelos de difusão convergirão para uma sequência de tokens em taxas diferentes, dependendo da dificuldade da tarefa. Isso permite que o modelo consuma menos recursos (e tenha latências menores) em tarefas fáceis e mais em tarefas mais difíceis.
Raciocínio não causal: Devido à atenção bidirecional no denoiser, os tokens podem atender a tokens futuros dentro do mesmo bloco de geração. Isso permite que o raciocínio não causal ocorra e que o modelo faça edições globais dentro de um bloco para produzir um texto mais coerente.
Refinamento iterativo/autocorreção: O processo de redução de ruído envolve amostragem, que pode introduzir erros, assim como em modelos autorregressivos. No entanto, diferentemente dos modelos autorregressivos, os tokens são passados de volta para o denoiser, que então tem a oportunidade de corrigir o erro.

O'Donoghue também destacou as principais desvantagens: “maior custo de serviço e tempo para o primeiro token (TTFT) ligeiramente maior, já que os modelos autorregressivos produzirão o primeiro token imediatamente. Para difusão, o primeiro token só pode aparecer quando toda a sequência de tokens estiver pronta.”

O Google diz que o desempenho do Gemini Diffusion é comparável ao do Gemini 2.0 Flash-Lite .

Referência	Tipo	Difusão de Gêmeos	Gemini 2.0 Flash-Lite
LiveCodeBench (v6)	Código	30,9%	28,5%
BigCodeBench	Código	45,4%	45,8%
LBPP (v2)	Código	56,8%	56,0%
Verificado pelo SWE-Bench*	Código	22,9%	28,5%
Avaliação Humana	Código	89,6%	90,2%
MBPP	Código	76,0%	75,8%
GPQA Diamante	Ciência	40,4%	56,5%
AIME 2025	Matemática	23,3%	20,0%
Banco grande extra duro	Raciocínio	15,0%	21,0%
MMLU Global (Lite)	Multilíngue	69,1%	79,0%

* Avaliação não-agente (apenas edição de turno único), tamanho máximo do prompt de 32K.

Os dois modelos foram comparados usando diversos benchmarks, com pontuações baseadas em quantas vezes o modelo produziu a resposta correta na primeira tentativa. O Gemini Diffusion teve um bom desempenho em testes de codificação e matemática, enquanto o Gemini 2.0 Flash-lite teve vantagem em raciocínio, conhecimento científico e capacidades multilíngues.

À medida que a Difusão Gemini evolui, não há razão para pensar que seu desempenho não alcançará modelos mais consolidados. De acordo com O'Donoghue, a lacuna entre as duas técnicas está "essencialmente fechada em termos de desempenho de benchmark, pelo menos nos tamanhos relativamente pequenos para os quais escalamos. De fato, pode haver alguma vantagem de desempenho para a difusão em alguns domínios onde a consistência não local é importante, por exemplo, codificação e raciocínio".

Testando a difusão de Gêmeos

O VentureBeat teve acesso à demonstração experimental. Ao testar o Gemini Diffusion, a primeira coisa que notamos foi a velocidade. Ao executar os prompts sugeridos pelo Google, incluindo a criação de aplicativos HTML interativos como Xylophone e Planet Tac Toe, cada solicitação foi concluída em menos de três segundos, com velocidades variando de 600 a 1.300 tokens por segundo.

Para testar seu desempenho com uma aplicação real, pedimos à Gemini Diffusion para criar uma interface de bate-papo por vídeo com o seguinte prompt:

 Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.

Em menos de dois segundos, a Gemini Diffusion criou uma interface funcional com uma pré-visualização de vídeo e um medidor de áudio.

Embora não tenha sido uma implementação complexa, pode ser o início de um MVP que pode ser concluído com um pouco mais de estímulo. Observe que o Gemini 2.5 Flash também produziu uma interface funcional, embora em um ritmo um pouco mais lento (aproximadamente sete segundos).

O Gemini Diffusion também oferece o recurso "Edição Instantânea", um modo em que texto ou código pode ser colado e editado em tempo real com o mínimo de solicitação. A Edição Instantânea é eficaz para diversos tipos de edição de texto, incluindo correção gramatical, atualização de texto para atingir diferentes perfis de leitores ou adição de palavras-chave de SEO. Também é útil para tarefas como refatoração de código, adição de novos recursos a aplicativos ou conversão de uma base de código existente para uma linguagem diferente.

É seguro dizer que qualquer aplicação que exija um tempo de resposta rápido se beneficia da tecnologia DLM. Isso inclui aplicações em tempo real e de baixa latência, como IA conversacional e chatbots, transcrição e tradução ao vivo, ou assistentes de codificação e preenchimento automático em IDE. De acordo com O'Donoghue, com aplicações que utilizam "edição em linha, por exemplo, pegando um trecho de texto e fazendo algumas alterações no local, os modelos de difusão são aplicáveis de maneiras que os modelos autorregressivos não são". Os DLMs também têm uma vantagem em problemas de raciocínio, matemática e codificação, devido ao "raciocínio não causal proporcionado pela atenção bidirecional".

Os DLMs ainda estão em fase inicial; no entanto, a tecnologia tem o potencial de transformar a forma como os modelos de linguagem são construídos. Eles não apenas geram texto a uma taxa muito maior do que os modelos autorregressivos, mas sua capacidade de retornar e corrigir erros significa que, eventualmente, também podem produzir resultados com maior precisão.

venturebeat

Além da arquitetura GPT: por que a abordagem de difusão do Google pode remodelar a implantação do LLM

Notícias semelhantes

Como Monetizar Aplicativos Unity: Melhores Práticas

Como o 'Burn Bar' do Prime Video está mudando a maneira como assistimos à NASCAR

Organização de Gestão de Resíduos Nucleares inicia processo de seleção de local para 2º repositório geológico profundo

Barbie com IA. Mattel anuncia parceria estratégica com a OpenAI

Smartphones Google Pixel 9 despencam para o menor preço de todos os tempos em liquidação surpresa na Sky