OpenAI und Google übertreffen die Mathe-Asse, aber nicht einander

KI-Modelle von OpenAI und Google DeepMind erzielten bei der Internationalen Mathematik-Olympiade (IMO) 2025, einem der ältesten und anspruchsvollsten Mathematikwettbewerbe der Welt auf Highschool-Niveau, Goldmedaillen, wie die Unternehmen in den letzten Tagen unabhängig voneinander bekannt gaben.
Die Ergebnisse unterstreichen, wie schnell sich KI-Systeme weiterentwickeln und wie ebenbürtig Google und OpenAI im KI-Rennen zu sein scheinen. KI-Unternehmen konkurrieren erbittert um die öffentliche Wahrnehmung, im KI-Rennen die Nase vorn zu haben: ein immaterieller Kampf der „Vibes“, der große Auswirkungen auf die Sicherung der besten KI-Talente haben kann. Viele KI-Forscher kommen aus der wettbewerbsorientierten Mathematik, daher sind Benchmarks wie IMO wichtiger als andere.
Letztes Jahr gewann Google bei der IMO eine Silbermedaille mit einem „formalen“ System, das Menschen dazu zwang, Probleme in ein maschinenlesbares Format zu übersetzen. Dieses Jahr schickten sowohl OpenAI als auch Google „informelle“ Systeme in den Wettbewerb, die Fragen verarbeiten und beweisbasierte Antworten in natürlicher Sprache generieren konnten. Beide Unternehmen behaupten, ihre KI-Modelle hätten im IMO-Test fünf von sechs Fragen richtig beantwortet und dabei besser abgeschnitten als die meisten Highschool-Schüler und Googles KI-Modell aus dem letzten Jahr, ohne dass eine Mensch-Maschine-Übersetzung erforderlich war.
In Interviews mit TechCrunch erklärten die Forscher hinter OpenAI und Googles IMO-Bemühungen, diese Goldmedaillen-Leistungen seien Durchbrüche bei KI-Argumentationsmodellen in nicht verifizierbaren Bereichen. Während KI-Argumentationsmodelle bei Fragen mit einfachen Antworten, wie einfachen Mathematik- oder Programmieraufgaben, tendenziell gute Ergebnisse erzielen, haben diese Systeme bei Aufgaben mit mehrdeutigeren Lösungen, wie dem Kauf eines guten Stuhls oder der Unterstützung bei komplexen Forschungsarbeiten, Schwierigkeiten.
Google wirft jedoch Fragen dazu auf, wie OpenAI seine IMO-Goldmedaillen-Leistung durchgeführt und bekannt gegeben hat. Wer KI-Modelle bei einem Mathe-Wettbewerb für Gymnasiasten einreicht, kann schließlich genauso gut wie Teenager argumentieren.
Kurz nachdem OpenAI am Samstagmorgen seine Leistung bekannt gab, kritisierten der CEO und die Forscher von Google DeepMind OpenAI in den sozialen Medien scharf dafür, dass das Unternehmen seine Goldmedaille vorzeitig bekannt gegeben hatte – kurz nachdem die IMO am Freitagabend bekannt gegeben hatte, welche Highschool-Schüler den Wettbewerb gewonnen hatten – und dafür, dass die IMO den Test ihres Modells nicht offiziell bewerten ließ.
Übrigens, nebenbei bemerkt, haben wir es am Freitag nicht bekannt gegeben, weil wir der ursprünglichen Aufforderung des IMO-Vorstands nachgekommen sind, dass alle KI-Labore ihre Ergebnisse erst dann bekannt geben, wenn die offiziellen Ergebnisse von unabhängigen Experten überprüft wurden und die Studenten zu Recht die Anerkennung erhalten haben, die sie verdient haben.
– Demis Hassabis (@demishassabis) , 21. Juli 2025
Thang Luong, leitender Forscher bei Google DeepMind und Leiter des IMO-Projekts, erklärte gegenüber TechCrunch, dass Google mit der Bekanntgabe der IMO-Ergebnisse gewartet habe, um den am Wettbewerb teilnehmenden Studenten Respekt zu zollen.
Techcrunch-Event
San Francisco | 27.-29. Oktober 2025
Luong sagte, dass Google bei der Vorbereitung des Tests seit dem letzten Jahr mit den Organisatoren der IMO zusammengearbeitet habe und den Segen und die offizielle Bewertung des IMO-Präsidenten haben wolle, bevor die offiziellen Ergebnisse bekannt gegeben würden, was am Montagmorgen geschah .
„Die IMO-Organisatoren haben ihre Bewertungsrichtlinien“, sagte Luong. „Eine Bewertung, die nicht auf diesen Richtlinien basiert, kann daher keinen Anspruch auf Goldmedaillen-Niveau erheben.“
Noam Brown, ein leitender OpenAI-Forscher, der am IMO-Modell mitgearbeitet hat, erklärte gegenüber TechCrunch, dass IMO vor einigen Monaten OpenAI wegen der Teilnahme an einem formellen Mathematikwettbewerb kontaktiert habe. Der ChatGPT-Entwickler habe jedoch abgelehnt, da er an natürlichen Sprachsystemen arbeite, die seiner Ansicht nach lohnender seien. Brown sagt, OpenAI habe nicht gewusst, dass IMO einen informellen Test mit Google durchführte.
OpenAI gab an, externe Gutachter – drei ehemalige IMO-Medaillengewinner, die das Bewertungssystem verstanden – beauftragt zu haben, die Leistung seines KI-Modells zu bewerten. Nachdem OpenAI von der Goldmedaille erfahren hatte, wandte sich das Unternehmen laut Brown an die IMO. Diese teilte dem Unternehmen daraufhin mit, mit der Bekanntgabe bis nach der IMO-Preisverleihung am Freitagabend zu warten.
IMO hat auf die Bitte von TechCrunch um einen Kommentar nicht geantwortet.
Google hat hier nicht unbedingt Unrecht – das Unternehmen hat ein offizielleres und strengeres Verfahren durchlaufen, um die Goldmedaille zu erhalten. Doch die Debatte übersieht möglicherweise das Gesamtbild: KI-Modelle führender KI-Labore verbessern sich rasant. Länder aus aller Welt schickten dieses Jahr ihre besten Studenten zur IMO, und nur wenige Prozent von ihnen schnitten so gut ab wie die KI-Modelle von OpenAI und Google.
Während OpenAI früher einen deutlichen Vorsprung vor der Branche hatte, scheint das Rennen nun ausgeglichener zu sein, als jedes Unternehmen zugeben möchte. OpenAI wird voraussichtlich in den kommenden Monaten GPT-5 veröffentlichen und hofft, den Eindruck zu erwecken, weiterhin führend in der KI-Branche zu sein.
techcrunch