Veo 3 de Google ahora convierte una foto en un video completo, con sonido incluido. Así funciona.

Google ha introducido una nueva función dentro de su aplicación Gemini : la capacidad de generar un vídeo corto a partir de una sola fotografía .
Lo único de esta nueva función es que el vídeo no solo anima la imagen, sino que también incluye una pista de audio generada automáticamente, con sonidos ambientales, efectos e incluso diálogos .
La tecnología detrás de esta nueva función es Veo 3 , la tercera generación del modelo desarrollado por Google DeepMind para crear vídeos a partir de texto o imágenes.
¿Qué es Veo 3?Presentado el pasado mes de mayo, el Veo 3 es capaz de producir videoclips de aproximadamente ocho segundos de duración, en resolución 720p , combinando movimiento y sonido en una sola generación.
Veo 3 está disponible para los suscriptores de Gemini Pro y Ultra en más de 150 países. La función de animación de fotos se está implementando y debería estar disponible en Gemini en los próximos días.
La función está disponible actualmente en la versión web de la aplicación Gemini, pero Google planea extenderla a dispositivos móviles pronto.
Cómo convertir una foto en un vídeoEl proceso es sencillo: inicia sesión en Gemini (requiere una cuenta de Google y una suscripción Pro o Ultra), sube una foto y describe brevemente lo que quieres que suceda, incluyendo el tipo de audio que quieres que coincida. El sistema tarda un rato en mostrar un video animado con sonido.
La basura de una cámara puede ser el tesoro de Veo 3 Ahora, Gemini puede darle vida a las fotos convirtiéndolas en videos con sonido.
— Aplicación Google Gemini (@GeminiApp) 11 de julio de 2025
Este tipo de integración supone un paso adelante respecto a lo que permiten otros modelos del mercado, como Runway Gen?2, Pika Labs o Sora de OpenAI .
Todos estos chatbots pueden generar vídeos a partir de texto o imágenes, pero sin audio nativo. En esos casos, la banda sonora debe añadirse por separado.
Un aspecto importante del sistema de Google es la presencia de mecanismos de seguridad integrados: todos los vídeos están marcados con una marca de agua (la palabra "Veo", visible en la parte inferior derecha, y otra invisible (SynthID)) para garantizar la trazabilidad y evitar el uso indebido del contenido generado.
repubblica