Google heeft de stilte rond kunstmatige intelligentie doorbroken

Google DeepMind heeft een paar dagen geleden Veo 3 uitgebracht, een nieuw model voor kunstmatige intelligentie dat in staat is om ultrarealistische video's te genereren op basis van eenvoudige tekstbeschrijvingen .
Maar de echte nieuwigheid zit hem in iets anders: voor het eerst in het tijdperk van generatieve AI worden deze video's begeleid door gesynchroniseerde audio met dialogen, geluidseffecten en omgevingsgeluiden.
Net zoals de overgang van stomme films naar geluid in de jaren twintig een revolutie teweegbracht in de bioscoop, belooft Veo 3 een revolutie teweeg te brengen in het visuele verhalen vertellen door AI .
Tot nu toe konden tekst-naar-video -modellen korte, visueel geloofwaardige clips produceren, maar dan zonder geluid. Die grens is inmiddels overschreden .
Zeg vaarwel tegen het stille tijdperk van videogeneratie: maak kennis met Veo 3 — met native audiogeneratie. De kwaliteit is verbeterd ten opzichte van Veo 2 en je kunt nu dialogen tussen personages, geluidseffecten en achtergrondgeluiden toevoegen. Veo 3 is nu beschikbaar in de @GeminiApp voor Google AI Ultra… pic.twitter.com/7rcXeBslyU
— Google (@Google) 20 mei 2025
Veo 3, ontwikkeld door Google DeepMind, is een krachtig tekst-naar-videomodel dat tekstberichten – binnenkort statische afbeeldingen – kan omzetten in levensechte video's van maximaal 8 seconden , met een resolutie tot 4K en audio die naast de afbeeldingen wordt gegenereerd.
Mensen, dieren en voorwerpen in de video's bewegen op natuurlijke wijze, dankzij een simulatie van de natuurkunde in de echte wereld , en hun lippen bewegen in overeenstemming (bijna altijd perfect) met de gesproken woorden.
Het resultaat? Clips die eruit zien alsof ze door een filmcrew zijn opgenomen, maar volledig door AI zijn gemaakt.
Wie kan het gebruiken?Momenteel is Veo 3 alleen verkrijgbaar via Gemini, de chatbot van Google , via gemini.google.com of via de officiële app voor iOS en Android. De toegang is echter voorbehouden aan gebruikers van het Ultra-abonnement ($249 per maand), dat voorlopig alleen in de Verenigde Staten beschikbaar is ( en in preview is voor mensen zoals wij, die het eerst willen testen om het aan onze lezers te kunnen vertellen ) .
Veo 3 kan echter verrassend goed overweg met het Italiaans : de prompts worden wel begrepen, maar daar twijfelen we niet aan, en de dialogen worden uitstekend geïnterpreteerd, zodat er geloofwaardige audio in onze taal wordt gegenereerd.
Onze tests met Veo 3We hebben de Veo 3 op de proef gesteld met surrealistische opdrachten die nog steeds realistische video's opleverden.
In een experiment vroegen we AI om een nep-TG1-nieuwsprogramma te creëren waarin een journalist op serieuze toon aankondigde dat kunstmatige algemene intelligentie (AGI) eindelijk ‘het probleem van verkeer, parkeren en kuilen in Rome’ had opgelost.
De laatste 8 seconden durende video is meeslepend: de stem is natuurlijk, de lipsynchronisatie is perfect en de visuele stijl imiteert op geloofwaardige wijze een aankondiging van actueel nieuws.
In een andere test simuleerden we een dialoog tussen twee podcasters: " Gaan we AGI bereiken? ", vraagt een van hen. “ Jawel, maar we komen er wel zenuwachtig aan ”, antwoordt de ander.
De toon, de ademhaling, de gezichtsuitdrukkingen: alles is coherent, alles lijkt echt en komt overeen met de speelse aanwijzingen die wij aan de machine gaven.
De kracht van Veo 3 ligt juist hierin: het slaagt erin om scènes tot leven te brengen met precieze dialogen , vloeiende animaties en een hoogwaardige audiovisuele rendering, zonder dat er videobewerking of handmatige animatie nodig is. Het enige wat je nodig hebt is een goede aanleiding . En misschien een basiskennis van filmtaal om uitstekende resultaten te krijgen.
Wat maakt Veo 3 zo bijzonder?In het snel veranderende landschap van videogeneratoren onderscheidt Veo 3 zich van concurrenten zoals Sora of Runway van OpenAI dankzij de audio: niet alleen gesynchroniseerd, maar volledig geproduceerd vanuit de prompt.
Als u bijvoorbeeld een achtervolgingsscène in de regen beschrijft, genereert Veo 3 niet alleen de voorbijrazende auto's en het opspattende water, maar voegt er ook realistische geluiden van regen, claxons en motoren aan toe. Het meeslepende effect is totaal . Geen enkel ander model bereikt momenteel deze samenhang tussen geluid en beeld.
Minder dan 24 uur nadat Google Veo3 heeft laten vallen en mensen al wilde dingen creëren! 13 waanzinnige voorbeelden 1. Een giraffe op een fiets in New York. pic.twitter.com/ktGDnwol99
— TechHalla (@techhalla) 21 mei 2025
Veo 3 biedt buitengewone mogelijkheden voor het creëren van content .
Onafhankelijke filmmakers kunnen complexe scènes produceren zonder miljoenenbudgetten ; leraren en communicatoren kunnen meeslepende video's maken om geschiedenis of wetenschap uit te leggen; Kunstenaars, adverteerders en communicatoren kunnen in slechts enkele minuten visuele projecten creëren die voorheen ondenkbaar waren .
Maar deze medaille heeft ook een keerzijde: deepfakes . Het extreme realisme van deze video's leidt tot zorgen over mogelijke oplichting en desinformatie die deze technologie zou kunnen verspreiden.
Een video die met Veo 3 is gegenereerd, kan de indruk wekken dat iemand iets zegt wat hij of zij in werkelijkheid nooit heeft gezegd. De grens tussen realiteit en fictie wordt vanuit dit oogpunt steeds dunner .
Dat overkwam ons ook, met de nep-TG1 : ook al was het label ‘Rai’ niet identiek aan het origineel, de context, de toon en de perfecte liplezing waren zo overtuigend dat ze geloofwaardig overkwamen op een onoplettende waarnemer die een soortgelijke video op sociale media was tegengekomen.
Een laatste kritisch aspect is de afwezigheid van een watermerk of ander onderscheidend teken in de video's die Veo 3 produceert: niets wijst erop dat ze zijn gegenereerd door kunstmatige intelligentie, waardoor ze mogelijk niet van echt beeldmateriaal te onderscheiden zijn.
repubblica