Google verbetert Gemini 2.5 met nieuwe redeneer-, audio- en beveiligingsmogelijkheden

Google heeft een nieuwe reeks updates aangekondigd voor Gemini 2.5, het meest geavanceerde model voor kunstmatige intelligentie van het bedrijf tot nu toe, waarmee de lat op het gebied van complex redeneren, multimodaliteit en interactiviteit nog hoger wordt gelegd. Na de lancering van de Gemini 2.5 Pro in maart en het previewen van functies voor ontwikkelaars op de I/O-conferentie, brengt de techgigant nu verbeteringen door aan zowel het Pro-model als de Flash-versie, waarbij de nadruk ligt op prestaties, beveiliging en de ontwikkelervaring.
Met een context van een miljoen tokens (teksteenheden zoals woorden of delen van woorden die AI gebruikt om taal te verwerken) en integratie met LearnLM (de reeks modellen die is ontwikkeld met onderwijsexperts), is Gemini 2.5 Pro niet alleen toonaangevend geworden in academische benchmarks, maar ook in de WebDev Arena- en LMArena-ranglijsten. Daar presteert het beter dan concurrenten bij coderingstaken en menselijke voorkeuren in uiteenlopende scenario's.
Het grote nieuws is nu de Deep Think-modus, een experimentele functie waarmee het model meerdere hypothesen kan onderzoeken voordat er gereageerd wordt, waardoor het redeneervermogen wordt versterkt. Voorlopig is deze functie alleen beschikbaar voor vertrouwde testers via de Gemini API, terwijl er aanvullende beveiligingsbeoordelingen worden uitgevoerd.
Gemini 2.5 Flash sneller en efficiënterDe Flash-versie van Gemini 2.5, die is ontworpen voor taken met een hoge snelheid en lagere rekenkosten, heeft ook een belangrijke update gekregen. Het is nu efficiënter (het gebruik van tokens is met 20-30% verminderd) en presteert beter op het gebied van redeneren, multimodaliteit, codering en beheer van lange contexten. Het is voor iedereen beschikbaar in de Gemini-app en wordt vanaf juni officieel in productie genomen op Google AI Studio en Vertex AI.
Meer menselijke interacties met native audioEen andere belangrijke nieuwe functie is de introductie van native audio-uitvoer, waardoor interacties met de Gemini-modellen natuurlijker en expressiever zijn. Gebruikers kunnen de toon, het accent en de stijl van de stem aanpassen, bijvoorbeeld om een dramatische vertelling te vragen. Bovendien ondersteunt het nieuwe tekst-naar-spraaksysteem met meerdere sprekers meer dan 24 talen en realtime taalomschakeling, waardoor zelfs gefluister en subtiele emoties worden vastgelegd.
Ook functies als affectieve dialoog (waarbij het model emoties in de stem van de gebruiker detecteert), proactieve audio (die achtergrondgeluiden filtert) en de integratie van de mogelijkheid om te 'denken' in de Live API bevinden zich nog in de experimentele fase.
Verbeterde beveiliging en controleNaarmate de functies toenamen, werd beveiliging een prioriteit. Gemini 2.5 implementeert nu nieuwe beveiligingen tegen indirecte promptinjecties – aanvallen waarbij kwaadaardige opdrachten in gegevens worden verborgen – waardoor de bescherming van het model tijdens het toolen aanzienlijk wordt verbeterd.
Ontworpen voor programmeurs: transparantie en integratie met open toolsOok de ervaring voor programmeurs is verbeterd. Gemini 2.5 Pro en Flash bevatten nu samenvattingen waarin de redenering van het model is georganiseerd met koppen, stappen en beslissingen, waardoor het gemakkelijker te begrijpen is.
Bovendien kunt u met de functie Denkbudgetten nu zelf bepalen hoeveel tokens er nodig zijn om na te denken voordat er wordt gereageerd. Zo kunt u kosten, latentie en kwaliteit in evenwicht brengen. Deze functie werd oorspronkelijk uitgebracht met Flash en is nu uitgebreid naar Pro.
Er is ook native ondersteuning voor het Model Context Protocol (MCP) in de Gemini API, wat de integratie met open-source tools vergemakkelijkt en de bouw van intelligentere en autonomere applicaties mogelijk maakt.
Visao