OpenIA-Modell erzielt Goldmedaille bei der Mathematik-Olympiade

OpenIA-Modell erzielt Goldmedaille bei der Mathematik-Olympiade
Der Prototyp der künstlichen Intelligenz beantwortete fünf von sechs Problemen, die sich an Studenten im Voruniversitätsalter richteten.
▲ Die Entwicklung von Systemen, die als große Sprachmodelle bekannt sind, überraschte sowohl Insider als auch Außenstehende durch die großen Fortschritte bei der Fähigkeit, menschliche Kommunikation zu verstehen, zu generieren und zu manipulieren. Foto: Bild erstellt mit einem Microsoft-Programm
Monica Mateos
Zeitung La Jornada, Dienstag, 22. Juli 2025, S. 6
Direkt nach dem Abschluss der 66. Internationalen Mathematik-Olympiade (IMO) am vergangenen Wochenende in Australien verkündete der Forscher Alexander Wei vom US-Unternehmen OpenIA mit großem Tamtam auf seinem Social-Media-Konto X, dass eines seiner KI-Modelle die große Herausforderung
gemeistert und eine Goldmedaille gewonnen habe, indem es fünf der sechs Aufgaben des an voruniversitäre Schüler gerichteten Wettbewerbs richtig beantwortet habe.
Warum ist das wichtig?
Wei, Doktor der Informatik an der University of California, Berkeley, fragte und erklärte: „Erstens erfordern IMO-Probleme im Vergleich zu früheren Benchmarks ein neues Niveau an nachhaltigem kreativem Denken. Zweitens erfordert Fortschritt in diesem Bereich, das Paradigma des direkten Lernens klarer und überprüfbarer Belohnungen zu überwinden. Auf diese Weise haben wir ein Modell entwickelt, das komplexe und robuste Argumente konstruieren kann und menschlichen Mathematikern ebenbürtig ist
.“
Die Nachricht überraschte alle, insbesondere weil man nicht mit so schnellen Fortschritten bei der Entwicklung sogenannter Large Language Models (LLMs) gerechnet hatte. Diese werden mit riesigen Mengen an Textdaten und Code trainiert, um menschliche Sprache zu verstehen, zu generieren und zu manipulieren. Ein LLM kann eine Vielzahl von Aufgaben erfüllen, wie z. B. Fragen beantworten, Text generieren, Sprachen übersetzen und vieles mehr.
Erst letztes Jahr gab der englische Riese Google DeepMind (GDM) bekannt, dass seine Modelle AlphaProof und AlphaGeometry beim ältesten und renommiertesten Mathematikwettbewerb der Welt, an dem jeden Sommer junge Menschen aus über 100 Ländern teilnehmen, Silbermedaillen gewonnen hatten. Die damalige Mathematikergemeinschaft war jedoch der Meinung, dass die Technologie noch einen weiten Weg vor sich
habe, um das Niveau menschlicher Denk-, Abstraktions- und Kreativitätsfähigkeiten zu erreichen ( La Jornada , 19.01.2024).
Wei berichtete, dass für jedes der fünf Probleme, die OpenAIs LLM „Experimental Reasoning“ löste, „drei ehemalige Medaillengewinner der Internationalen Mathematik-Olympiade die eingereichten Beweise unabhängig voneinander bewerteten und die Punktzahlen einstimmig vergeben wurden. Das Modell erreichte 35 von 42 Punkten – gut genug für Gold! Wir bewerteten unsere Modelle nach den gleichen Regeln wie die menschlichen Teilnehmer bei der IMO 2025: zwei viereinhalbstündige Prüfungssitzungen ohne Tools oder Internet, Lesen der offiziellen Aufgabenstellungen und Verfassen von Beweisen in natürlicher Sprache.“
Experimentelle Forschung
„Einen herzlichen Glückwunsch an das Team von Sheryl Hsu und Noam Brown und an alle großartigen Mitarbeiter, auf deren Hilfe wir diesen unglaublichen Traum Wirklichkeit werden ließen! Ich habe das Glück, bis spät in die Nacht und bis in die frühen Morgenstunden an der Seite der Besten arbeiten zu können“
, sagte Wei.
Der Forscher stellte jedoch klar, dass Version 5 von GPT Chat zwar sehr bald veröffentlicht wird, die goldene olympische KI jedoch „ein experimentelles Forschungsmodell ist. Wir planen nicht, in den nächsten Monaten etwas mit diesem mathematischen Leistungsniveau zu veröffentlichen.“
Dies unterstreicht jedoch, wie rasant sich die KI in den letzten Jahren entwickelt hat. 2021 bat mich mein Doktorvater, den KI-Fortschritt in der Mathematik bis Juli 2025 vorherzusagen. Ich prognostizierte 30 Prozent über dem Benchmark; ich hielt alle anderen für zu optimistisch. Und doch haben wir jetzt eine olympische Goldmedaille.
Ein ehemaliger IMO-Teilnehmer, der am Training von OpenAI-Modellen beteiligt war, erklärte, dass Problem 6 dieses Jahr „aus der Kombinatorik stammte, einem Bereich, der normalerweise mehr Kreativität erfordert. In anderen mathematischen Bereichen gibt es Techniken, um alles in Algebra umzuwandeln; in der Geometrie beispielsweise wandelt man alles in Koordinaten auf einer Ebene um und löst das Problem mithilfe von Algebra, was KI bereits tut. In der Kombinatorik ist das nicht möglich; es gibt keine so gängigen Techniken, und es kann kompliziert sein. In diesem Fall mussten wir einen Weg ‚erfinden‘, um das Problem anzugehen und zu lösen.“
Alexander Wei hat auf seinem X-Konto die Modelllösungen für die fünf IMO-Probleme für alle hochgeladen, die einen Blick darauf werfen möchten, und die Anwesenheit mehrerer ehemaliger Olympioniken bei OpenAI gewürdigt, die beim Training der Modelle helfen. Sie gehören zu den klügsten jungen Köpfen der Zukunft
.
Ernest Ryu, Professor für angewandte Mathematik an der University of California, Los Angeles (UCLA), erklärte unverblümt: „Ich glaube nicht, dass LLMs Mathematiker in absehbarer Zeit ersetzen werden. Die mathematische Forschung konzentriert sich auf die Lösung von Problemen, deren Lösung noch niemand kennt. Dies erfordert viel Kreativität, die den Lösungen von OpenAI meiner Meinung nach deutlich fehlt.“
„Ich gehe davon aus, dass im Laufe des nächsten Jahrzehnts immer mehr Mathematiker ihre Produktivität steigern werden, indem sie LLMs nutzen, um nach bekannten Teilen eines vorläufigen Beweisschemas zu suchen. Erfahrene Mathematiker mögen dies bedauern, aber die jüngeren werden einfach weiterhin gute Arbeit leisten.“
Was wird danach passieren, sagen wir in 30 Jahren? Ich habe keine Ahnung. Ich hoffe, dass Mathematiker (und menschliche intellektuelle Arbeit im Allgemeinen) nicht durch KI ersetzt werden, aber niemand weiß, was passieren wird. Meine Karriere als Mathematiker ist sicherlich nicht gefährdet; im Gegenteil, ich hoffe, KI nutzen zu können, um meine Arbeit zu beschleunigen. Ich bin mir jedoch nicht sicher, ob die Generation meines Sohnes noch als ‚Mathematiker‘ bezeichnet wird.“
Auch Google DeepMind erreicht den lang erwarteten Meilenstein
Aus der Redaktion
Zeitung La Jornada, Dienstag, 22. Juli 2025, S. 6
Google DeepMind gab gestern bekannt, dass eine erweiterte Version seines künstlichen Intelligenzsystems (KI) Gemini Deep Think bei der Internationalen Mathematik-Olympiade (IMO) 2025 in Australien eine Leistung auf Goldmedaillenniveau erzielt hat.
Das KI-System löste fünf von sechs Aufgaben perfekt und erreichte 35 von 42 möglichen Punkten. Damit erreichte es die Goldmedaillen-Schwelle. Dies stellt eine deutliche Verbesserung gegenüber der Silbermedaille im Vorjahr dar, als die kombinierten Systeme Google AlphaProof und AlphaGeometry 2 nur 28 Punkte erreichten.
IMO-Präsident Gregor Dolinar bestätigte den Erfolg mit den Worten: „Google DeepMind hat den lang ersehnten Meilenstein erreicht und 35 von 42 möglichen Punkten erreicht – eine Goldmedaille. Die Lösungen waren in vielerlei Hinsicht erstaunlich. Die IMO-Prüfer empfanden sie als klar, präzise und äußerst verständlich.“
Im Gegensatz zu früheren KI-Versuchen, bei denen Experten Probleme in Fachsprachen übersetzen mussten, arbeitete diese Version von Gemini vollständig in natürlicher Sprache und erstellte innerhalb des Zeitlimits von viereinhalb Stunden des Wettbewerbs mathematische Beweise direkt aus den offiziellen Problemstellungen.
Für den Durchbruch wurde eine erweiterte Version von Gemini Deep Think mit erweiterten Denkfähigkeiten eingesetzt, darunter paralleles Denken
, das es dem Modell ermöglicht, mehrere Lösungswege gleichzeitig zu erkunden. Das System wurde monatelang mit neuartigen Techniken des bestärkenden Lernens trainiert und erhielt Zugang zu hochwertigen Lösungen für mathematische Probleme.
Am Samstag gab auch das US-Unternehmen OpenAI bekannt, dass sein Deep-Learning-Modell beim weltweit größten voruniversitären Mathematikwettbewerb endlich eine Goldmedaille gewonnen habe.
jornada