Menschen schlagen KI bei der jährlichen Mathematik-Olympiade, aber die Maschinen holen auf

/ CBS/AFP
Sydney – Menschen haben bei einem internationalen Mathematikwettbewerb die generativen KI-Modelle von Google und OpenAI geschlagen. Die Programme erreichten jedoch zum ersten Mal Gold-Bewertungen, und die Geschwindigkeit, mit der sie sich verbessern, könnte Anlass zu einer gewissen Selbstreflexion geben.
Keines der KI-Modelle erreichte die volle Punktzahl – anders als fünf junge Menschen bei der Internationalen Mathematik-Olympiade (IMO), einem prestigeträchtigen jährlichen Wettbewerb, bei dem die Teilnehmer unter 20 Jahre alt sein müssen.
Google gab am Montag bekannt, dass eine erweiterte Version seines Chatbots Gemini fünf der sechs Matheaufgaben gelöst habe, die bei der IMO gestellt wurden, die diesen Monat im australischen Queensland stattfand.
„Wir können bestätigen, dass Google DeepMind den ersehnten Meilenstein erreicht und 35 von 42 möglichen Punkten – eine Goldmedaille – erreicht hat“, zitierte der US-Technologieriese IMO-Präsident Gregor Dolinar. „Ihre Lösungen waren in vielerlei Hinsicht erstaunlich. Die IMO-Prüfer fanden sie klar, präzise und die meisten davon leicht verständlich.“
Etwa 10 % der menschlichen Teilnehmer gewannen Goldmedaillen und fünf erreichten die Höchstpunktzahl von 42 Punkten.
Der US-amerikanische ChatGPT-Hersteller OpenAI sagte, sein experimentelles Denkmodell habe im Test ebenfalls 35 Punkte auf Goldniveau erreicht.
Das Ergebnis habe „eine seit langem bestehende große Herausforderung in der KI gemeistert“ und zwar beim „weltweit renommiertesten Mathematikwettbewerb“, sagte OpenAI-Forscher Alexander Wei in einem Social-Media-Beitrag.
„Wir haben unsere Modelle anhand der IMO-Probleme von 2025 nach denselben Regeln bewertet wie menschliche Teilnehmer“, sagte er. „Für jedes Problem haben drei ehemalige IMO-Medaillengewinner unabhängig voneinander die eingereichten Beweise des Modells bewertet.“
Google erreichte bei der IMO im vergangenen Jahr in der südwestenglischen Stadt Bath die Silbermedaille und löste vier der sechs Probleme.
Die Berechnung hierfür habe zwei bis drei Tage gedauert, also deutlich länger als in diesem Jahr, als das Gemini-Modell die Probleme innerhalb der vorgegebenen Zeit von 4,5 Stunden gelöst habe, hieß es.
Die IMO teilte mit, dass Technologieunternehmen „Closed-Source-KI-Modelle privat an den diesjährigen Problemen getestet“ hätten, also an denselben Problemen, mit denen 641 konkurrierende Studenten aus 112 Ländern konfrontiert waren.
„Es ist sehr aufregend, die Fortschritte bei den mathematischen Fähigkeiten von KI-Modellen zu sehen“, sagte IMO-Präsident Dolinar.
Die Organisatoren des Wettbewerbs könnten nicht überprüfen, wie viel Rechenleistung die KI-Modelle verbraucht hätten oder ob menschliche Beteiligung vorliege, merkte er an.
In einem Interview mit der CBS-Sendung „60 Minutes “ sagte einer der führenden KI-Forscher von Google Anfang des Jahres voraus, dass es innerhalb von nur fünf bis zehn Jahren Computer geben werde, die über kognitive Fähigkeiten auf menschlichem Niveau verfügen – ein Meilenstein, der als „künstliche allgemeine Intelligenz“ bekannt ist.
Demis Hassabis, CEO von Google DeepMind, sagte voraus , dass die KI-Technologie dank steigender Investitionen innerhalb eines Jahrzehnts in der Lage sein werde, die Welt auf differenziertere Weise zu verstehen und nicht nur wichtige Probleme zu lösen, sondern sogar Vorstellungskraft zu entwickeln.
„Es geht unglaublich schnell voran“, sagte Hassabis. „Ich denke, wir befinden uns auf einer Art exponentieller Verbesserungskurve. Der Erfolg des Fachgebiets in den letzten Jahren hat natürlich noch mehr Aufmerksamkeit, mehr Ressourcen und mehr Talente angezogen. Das trägt zu diesem exponentiellen Fortschritt bei.“
Cbs News