OpenIA-model behaalt gouden medaille op Wiskunde Olympiade

OpenIA-model behaalt gouden medaille op Wiskunde Olympiade
Het prototype van kunstmatige intelligentie beantwoordde vijf van de zes problemen gericht op pre-universitaire leerlingen.
▲ De ontwikkeling van systemen die bekend staan als grote taalmodellen verraste zowel insiders als outsiders door de enorme vooruitgang in het vermogen om menselijke communicatie te begrijpen, genereren en manipuleren. Foto Afbeelding gegenereerd met een Microsoft-programma
Monica Mateos
Krant La Jornada, dinsdag 22 juli 2025, p. 6
Direct na afloop van de 66e Internationale Wiskunde Olympiade (IMO) in Australië, kondigde onderzoeker Alexander Wei van het Amerikaanse bedrijf OpenIA op zijn socialemedia-account X met veel bombarie aan dat een van zijn modellen voor kunstmatige intelligentie (AI) erin was geslaagd een gouden
medaille te behalen door vijf van de zes opgaven in de wedstrijd voor middelbare scholieren correct te beantwoorden.
Waarom is dit belangrijk?
Wei, een PhD in de computerwetenschappen aan de Universiteit van Californië, Berkeley, vroeg zich af: Ten eerste vereisen IMO-problemen een nieuw niveau van aanhoudend creatief denken vergeleken met eerdere benchmarks. Ten tweede vereist vooruitgang op dit gebied dat we verder gaan dan het paradigma van het direct leren van duidelijke en verifieerbare beloningen. Op deze manier hebben we een model verkregen dat in staat is om complexe en robuuste argumenten te construeren, vergelijkbaar met menselijke wiskundigen
.
Het nieuws verraste iedereen, vooral omdat men niet had verwacht dat er zo'n snelle vooruitgang zou worden geboekt in de ontwikkeling van systemen die bekend staan als grote taalmodellen (LLM's). Deze systemen worden getraind met enorme hoeveelheden tekstdata en code om menselijke taal te begrijpen, genereren en manipuleren. Een LLM kan een breed scala aan taken uitvoeren, zoals het beantwoorden van vragen, het genereren van tekst, het vertalen van talen en nog veel meer.
Vorig jaar nog maakte de Engelse gigant Google DeepMind (GDM) bekend dat zijn AlphaProof- en AlphaGeometry-modellen zilveren medailles hadden gewonnen in 's werelds oudste en meest prestigieuze wiskundige wedstrijd, waaraan elke zomer jongeren uit meer dan 100 landen deelnemen. De wiskundige gemeenschap was er echter van overtuigd dat de technologie nog een lange weg te gaan
had om het niveau van redeneren, abstractie en creativiteit van de mens te bereiken ( La Jornada , 19 januari 2024).
Wei meldde dat voor elk van de vijf problemen die door OpenAI's Experimental Reasoning LLM werden opgelost, "drie voormalige winnaars van de Internationale Wiskunde Olympiade onafhankelijk het ingediende bewijs beoordeelden, en de scores werden verkregen met unanieme consensus. Het model scoorde 35 van de 42 punten – goed voor goud! We beoordeelden onze modellen volgens dezelfde regels als de menselijke deelnemers aan IMO 2025: twee examensessies van vierenhalf uur, zonder hulpmiddelen of internet, waarbij de officiële probleemstellingen werden gelezen en de bewijzen in natuurlijke taal werden geschreven."
Experimenteel onderzoek
Een dikke proficiat aan het team van Sheryl Hsu en Noam Brown, en aan alle toppers op wie we hebben vertrouwd om deze ongelooflijke droom te verwezenlijken! Ik heb het geluk om tot laat in de nacht en tot in de vroege uurtjes te werken, samen met de besten
, zei Wei.
De onderzoeker verduidelijkte echter dat, hoewel versie 5 van GPT Chat zeer binnenkort zal verschijnen, de gouden Olympische AI "een experimenteel onderzoeksmodel is. We zijn niet van plan om binnen enkele maanden iets met dit niveau van wiskundige mogelijkheden uit te brengen."
Toch onderstreept dit hoe snel AI zich de afgelopen jaren heeft ontwikkeld. In 2021 vroeg mijn promotiebegeleider me om de AI-voortgang in de wiskunde tot juli 2025 te voorspellen. Ik voorspelde 30 procent van de benchmark; ik dacht dat iedereen te optimistisch was. En nu hebben we een Olympische gouden medaille.
Een voormalige IMO-deelnemer die deelnam aan de training van OpenAI-modellen, legde uit dat probleem 6 dit jaar "in de combinatoriek zat, een gebied dat normaal gesproken meer creativiteit vereist. In andere wiskundige vakgebieden bestaan er technieken om alles naar algebra om te zetten; in de meetkunde bijvoorbeeld, zet je alles om naar coördinaten op een vlak en los je het probleem op met algebra, iets wat AI al doet. In de combinatoriek kan dat niet; er zijn geen zulke gangbare technieken, en het kan ingewikkeld zijn. In dit geval moesten we een manier 'uitvinden' om het probleem aan te pakken en op te lossen."
Op zijn X-account heeft Alexander Wei de oplossingen van de modellen voor de vijf IMO-problemen geüpload voor iedereen die ze wil bekijken. Ook erkende hij de aanwezigheid op OpenAI van verschillende voormalige Olympiërs die helpen bij de training van de modellen; zij behoren tot de slimste jonge geesten van de toekomst
.
Ernest Ryu, hoogleraar toegepaste wiskunde aan de University of California, Los Angeles (UCLA), was ronduit: "Ik denk niet dat LLM's wiskundigen binnenkort zullen vervangen. Wiskundig onderzoek richt zich op het oplossen van problemen waarvan nog niemand weet hoe ze die moeten oplossen, en dat vereist aanzienlijke creativiteit, iets wat naar mijn mening opvallend ontbreekt in de oplossingen van OpenAI."
"Mijn voorspelling is dat in het komende decennium een toenemend aantal wiskundigen hun productiviteit zullen verbeteren door middel van LLM's om te zoeken naar bekende onderdelen van een voorlopig bewijsschema. Senior wiskundigen zullen dit misschien betreuren, maar de jongere generatie zal gewoon goed werk blijven leveren."
Wat zal er daarna gebeuren, zeg over 30 jaar? Ik heb geen idee. Ik hoop dat wiskundigen (en het menselijke intellectuele werk in het algemeen) niet door AI vervangen zullen worden, maar niemand weet wat er zal gebeuren. Mijn carrière als wiskundige wordt zeker niet bedreigd; sterker nog, ik hoop AI te kunnen inzetten om mijn werk te versnellen. Ik weet echter niet zeker of de generatie van mijn zoon nog steeds 'wiskundigen' genoemd zal worden.
Google DeepMind bereikt ook de langverwachte mijlpaal
Van de redactie
Krant La Jornada, dinsdag 22 juli 2025, p. 6
Google DeepMind maakte gisteren bekend dat een geavanceerde versie van zijn kunstmatige intelligentiesysteem Gemini Deep Think een gouden medaille heeft behaald op de Internationale Wiskunde Olympiade (IMO) van 2025 in Australië.
Het AI-systeem loste vijf van de zes problemen perfect op en scoorde 35 van de 42 mogelijke punten, waarmee de gouden medaille-drempel werd bereikt. Dit is een aanzienlijke verbetering ten opzichte van de zilveren medaille van vorig jaar, toen de gecombineerde Google AlphaProof- en AlphaGeometry 2-systemen slechts 28 punten scoorden.
IMO-voorzitter Gregor Dolinar bevestigde de prestatie en verklaarde: "Google DeepMind heeft de langverwachte mijlpaal bereikt met 35 van de 42 mogelijke punten – een gouden medaille. De oplossingen waren in veel opzichten verbluffend. IMO-evaluatoren vonden ze duidelijk, nauwkeurig en zeer gemakkelijk te volgen."
In tegenstelling tot eerdere AI-pogingen, waarbij experts problemen moesten vertalen naar gespecialiseerde talen, werkte deze versie van Gemini volledig in natuurlijke taal en leverde het wiskundige bewijzen rechtstreeks aan op basis van de officiële probleemstellingen binnen de tijdslimiet van vierenhalf uur van de wedstrijd.
De doorbraak maakte gebruik van een geavanceerde versie van Gemini Deep Think met verbeterde redeneermogelijkheden, waaronder parallel denken
, waardoor het model meerdere oplossingsrichtingen tegelijkertijd kan verkennen. Het systeem werd maandenlang getraind met behulp van nieuwe reinforcement learning-technieken en kreeg toegang tot hoogwaardige oplossingen voor wiskundige problemen.
Zaterdag maakte het Amerikaanse bedrijf OpenAI ook bekend dat zijn deep learning-model eindelijk een gouden medaille had gewonnen in de grootste wiskundewedstrijd voor gevorderden ter wereld.
jornada