Mensen verslaan AI bij jaarlijkse wiskundeolympiade, maar machines halen in

/ CBS/AFP
Sydney — Mensen hebben generatieve AI-modellen van Google en OpenAI verslagen tijdens een grote internationale wiskundewedstrijd, maar de programma's behaalden voor het eerst een gouden score. De snelheid waarmee ze verbeteren, geeft mogelijk aanleiding tot enige menselijke introspectie.
Geen van beide AI-modellen behaalde de maximale score, in tegenstelling tot vijf jongeren bij de Internationale Wiskunde Olympiade (IMO), een prestigieuze jaarlijkse wedstrijd waarbij deelnemers jonger dan 20 jaar moeten zijn.
Google meldde maandag dat een geavanceerde versie van zijn Gemini-chatbot vijf van de zes wiskundige problemen had opgelost die tijdens de IMO, die deze maand in het Australische Queensland werd gehouden, waren gesteld.
"We kunnen bevestigen dat Google DeepMind de felbegeerde mijlpaal heeft bereikt en 35 van de 42 mogelijke punten heeft behaald - een gouden medaille", aldus de Amerikaanse techgigant, citerend uit IMO-president Gregor Dolinar. "Hun oplossingen waren in veel opzichten verbluffend. De beoordelaars van de IMO vonden ze duidelijk, nauwkeurig en de meeste gemakkelijk te volgen."
Ongeveer 10% van de menselijke deelnemers won een gouden medaille, en vijf deelnemers behaalden een perfecte score van 42 punten.
Volgens OpenAI, een Amerikaanse maker van ChatGPT, scoorde zijn experimentele redeneermodel eveneens 35 gouden punten op de test.
Het resultaat "behaalde een al lang bestaande grote uitdaging in AI" op "de meest prestigieuze wiskundewedstrijd ter wereld", aldus OpenAI-onderzoeker Alexander Wei in een bericht op sociale media.
"We hebben onze modellen beoordeeld op de IMO-problemen van 2025 volgens dezelfde regels als de menselijke deelnemers", zei hij. "Voor elk probleem beoordeelden drie voormalige IMO-medaillewinnaars onafhankelijk het ingediende bewijs van het model."
Google behaalde vorig jaar een zilveren medaille op de IMO in de stad Bath in het zuidwesten van Engeland door vier van de zes problemen op te lossen.
Dat kostte twee tot drie dagen aan berekeningen, veel langer dan dit jaar, toen het Gemini-model de problemen binnen de tijdslimiet van 4,5 uur oploste, aldus het bedrijf.
Volgens de IMO hebben technologiebedrijven "privé AI-modellen met gesloten bron getest op de problemen van dit jaar", dezelfde problemen waar 641 deelnemende studenten uit 112 landen mee te maken kregen.
"Het is heel spannend om vooruitgang te zien in de wiskundige mogelijkheden van AI-modellen", aldus IMO-voorzitter Dolinar.
De organisatoren van de wedstrijd konden niet verifiëren hoeveel rekenkracht er door de AI-modellen was gebruikt en of er sprake was van menselijke tussenkomst, merkte hij op.
In een interview met CBS' 60 Minutes eerder dit jaar voorspelde een van Google's toonaangevende AI-onderzoekers dat er binnen slechts vijf tot tien jaar computers zouden zijn met menselijke cognitieve vaardigheden – een mijlpaal die bekendstaat als 'kunstmatige algemene intelligentie'.
Demis Hassabis, CEO van Google DeepMind, voorspelde dat AI-technologie de wereld op genuanceerde wijze zou kunnen begrijpen en niet alleen belangrijke problemen zou kunnen oplossen, maar zelfs binnen tien jaar een gevoel voor verbeelding zou kunnen ontwikkelen, dankzij een toename in investeringen.
"Het gaat ongelooflijk snel", zei Hassabis. "Ik denk dat we een soort exponentiële curve van verbetering hebben bereikt. Natuurlijk heeft het succes van het vakgebied de afgelopen jaren nog meer aandacht, meer middelen en meer talent aangetrokken. Dat draagt bij aan deze exponentiële vooruitgang."
Cbs News