O Veo 3 do Google agora transforma uma foto em um vídeo completo, com som. Veja como funciona.

O Google introduziu um novo recurso em seu aplicativo Gemini : a capacidade de gerar um vídeo curto a partir de uma única fotografia .
O recurso exclusivo desse novo recurso é que o vídeo não apenas anima a imagem, mas também inclui uma trilha de áudio gerada automaticamente, com sons ambientes, efeitos e até diálogos .
A tecnologia por trás desse novo recurso é o Veo 3 , a terceira geração do modelo desenvolvido pelo Google DeepMind para criação de vídeos a partir de texto ou imagens.
O que é Veo 3Revelado em maio passado, o Veo 3 é capaz de produzir videoclipes de aproximadamente oito segundos de duração, em resolução de 720p , combinando movimento e som em uma única geração.
O Veo 3 está disponível para assinantes do Gemini Pro e Ultra em mais de 150 países. O recurso de animação de fotos está sendo implementado e deve chegar ao Gemini nos próximos dias.
O recurso está atualmente disponível na versão web do aplicativo Gemini, mas o Google planeja estendê-lo para dispositivos móveis em breve.
Como transformar uma foto em um vídeoO processo é simples: você faz login no Gemini (requer uma conta do Google e uma assinatura Pro ou Ultra), carrega uma foto e descreve brevemente o que deseja que aconteça, incluindo o tipo de áudio que deseja combinar. O sistema então demora um pouco para retornar um vídeo animado, completo com som.
O lixo de uma câmera pode ser o tesouro da Veo 3. Agora, a Gemini pode dar vida às fotos transformando-as em vídeos com som.
— Aplicativo Google Gemini (@GeminiApp) 11 de julho de 2025
Este tipo de integração representa um avanço em relação ao que outros modelos do mercado permitem, como o Runway Gen?2, o Pika Labs ou o Sora da OpenAI .
Todos esses chatbots podem gerar vídeos a partir de texto ou imagens, mas sem áudio nativo. Nesses casos, a trilha sonora deve ser adicionada separadamente.
Um aspecto significativo do sistema do Google é a presença de mecanismos de segurança integrados: todos os vídeos são marcados com uma marca d'água - a palavra "Veo", visível no canto inferior direito, e uma invisível (SynthID) - para garantir a rastreabilidade e evitar o uso indevido do conteúdo gerado.
La Repubblica