Ein Boxring für Chatbots: In der LM-Arena treten KI-Modelle gegeneinander an


Illustration Simon Tanner / NZZ
Die Welt der KI-Chatbots kann verwirrend sein. Chat-GPT von Open AI gilt als spitze bei Alltagsfragen, für Bild- und Textgenerierung bevorzugen viele Claude. Und wer Hilfe beim Programmieren braucht, wendet sich oft an den Konkurrenten Perplexity. Doch das alles kann morgen schon wieder veraltet sein, schliesslich spriessen neue KI-Modelle aus dem Boden wie Pilze nach dem Regen.
NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.
Bitte passen Sie die Einstellungen an.
Wie vergleicht man sie am besten? Für Bestenlisten im Schach gibt es den Elo-Score und das Fide-Rating-System, an den Aktienmärkten hat man Bewertungsskalen von AAA bis D eingeführt, und amerikanische Unis messen sich in den legendären College-Ratings.
Die gleiche Idee haben eine Handvoll Wissenschafter auf KI-Modelle angewandt: Die Large-Model-Arena, kurz LM-Arena oder auch Chatbot-Arena genannt, ist wie ein Wettkampfring für KI-Chatbots. Hier messen sich die besten Modelle von Open AI, Google, Anthropic und Co. Im direkten Vergleich müssen sie die Jury – sprich den Nutzer – überzeugen, welches Modell leistungsstärker ist. Daraus ergibt sich ein Elo-Score, wie er auch im Schach oder bei Computerspielen verwendet wird.
Das Verfahren ist simpel: Der Nutzer wendet sich mit einer Frage an die Plattform, die wählt zur Beantwortung blind und anonymisiert zwei Chatbots aus. Der Nutzer entscheidet, welche Antwort ihm besser gefällt – oder ob beide ähnlich gut sind oder beide nichts taugen. Alle Bewertungen fliessen in eine gewichtete Rangordnung, ein sogenanntes Leaderboard.
Bild: Screenshot LM-Arena
Weil Nutzer alle möglichen Fragen stellen – von Alltags- bis Programmierproblemen – gibt das Ranking einen guten Überblick über die Nützlichkeit eines Modells. Mehr als drei Millionen Nutzer haben inzwischen als Schiedsrichter agiert. Für sie ist das Angebot der Chatbot-Arena auch deswegen attraktiv, weil es gratis ist: Sie können ihre Fragen den neuesten und besten Modellen der KI-Firmen stellen, ohne dafür zahlen zu müssen.
Die Tech-CEO verfolgen das Leaderboard ebenfalls: Demis Hassabis, Gründer von Deep Mind, postet regelmässig Bildschirmfotos der Rangliste in den sozialen Netzwerken, Elon Musk prahlte, als sein KI-Modell Grok innerhalb von kürzester Zeit Topbewertungen erreichte. Und Googles CEO Sundar Pichai eröffnete jüngst die wichtigste Veranstaltung seines Konzerns, indem er jubelte: «In der LM-Arena belegen unsere Modelle Spitzenplätze.» Tatsächlich führt Googles jüngstes KI-Modell Gemini 2.5 Pro seit seiner Veröffentlichung Mitte März das Ranking an, vor dem Konkurrenzmodell o3 von Open AI.
Das Ganze ist nicht nur eine Spielerei, sondern hat reale kommerzielle Auswirkungen. Denn der Wettbewerb unter den KI-Firmen ist zurzeit derart gross, dass jeder vermeintliche Vorsprung gegenüber der Konkurrenz dabei helfen kann, neue Kunden und Fachspezialisten anzulocken. Tech-CEO verfolgen das Leaderboard daher wie die Bewegungen ihrer Titel an den Aktienmärkten.
«Jeder versucht zurzeit, auf der Rangliste ganz oben zu erscheinen», sagte Joseph Spisak, Produktmanager für KI bei Meta, gegenüber dem «Wall Street Journal». «Es ist beeindruckend zu sehen, dass eine Handvoll Studenten so etwas schaffen kann.»
An einem einzigen Wochenende wurde die Plattform programmiertTatsächlich waren die Anfänge der Arena bescheiden: Anfang 2023, wenige Monate nach dem Überraschungserfolg von Chat-GPT, hatten einige Doktoranden der Computerwissenschaften an der Universität Berkeley ein eigenes Sprachmodell gebaut, im Open-Source-Ansatz. Nun wollten sie illustrieren, wie gut dieses Modell im Vergleich mit Chat-GPT funktionierte. Sie hatten die Idee, dass ein jeder die Modelle direkt vergleichen und sein Urteil abgeben könnte. Im Laufe eines Wochenendes entstand die Chatbot-Arena.
Das Besondere: Die Tester sollten nicht nur Nerds sein, sondern aus der breiten Öffentlichkeit stammen. Und tatsächlich traf die Arena den Zeitgeist: Nach nur einer Woche hatten bereits 4700 Nutzer die Plattform besucht und ihre Bewertung abgegeben.
KI-Firmen begannen, den Wissenschaftern Prototypen neuer Modelle zuzusenden, und verbesserten mit den in der Arena gewonnenen Erkenntnissen ihre Algorithmen. Denn die erhobenen Daten bieten wertvolle Informationen dazu, wie Nutzer mit den Chatbots interagieren. Die Plattform teilt diese mit den KI-Firmen, zumindest teilweise. Rund 20 Prozent aller erhobenen Daten leite man weiter, sagen die Gründer: genug, dass die Informationen nützlich für leichte Verbesserungen seien, aber zu wenig, als dass die Firmen das Ranking-System austricksen könnten.
Zwei Jahre später ist das Testpublikum auf rund eine Million Nutzer pro Monat angewachsen. Aus den ursprünglich 9 KI-Modellen, die gegeneinander antraten, sind inzwischen mehr als 400 geworden. Ein jeder kann diese auf der Website lmarena.ai anonymisiert gegeneinander antreten lassen – die von Silicon-Valley-Titanen wie Open AI, Google und Meta bis hin zu denen wenig bekannter KI-Firmen aus China und Europa. Welches Modell hinter den Antworten steckt, sieht man erst, wenn man seine Bewertung abgegeben hat.
«Unsere Nutzer haben sehr verschiedene Hintergründe», erzählt einer der Gründer, der CEO Anastasios Angelopoulos, im Gespräch mit der NZZ: Rund 60 Prozent kämen aus der Tech-Industrie, die restlichen Nutzer stammten aus verschiedenen Bereichen, vom Immobilien- bis zum Gesundheitssektor.
Die Modelle müssten sich deswegen bei einer enormen Vielfalt von Anfragen bewähren, sagt Angelopoulos. Basierend auf all den Bewertungen wird so ein Ranking erstellt: für das insgesamt beste Modell und für Unterkategorien wie das beste Modell zum Programmieren oder zum Bilder-Generieren.
Deepseek kletterte die Ranglisten bereits vor Monaten emporDas Ranking funktioniert auch gut, wenn es darum geht, neue, aufstrebende KI-Modelle zu erkennen. Das zeigte sich etwa Anfang des Jahres: Für viele überraschend stellte ein wenig bekanntes Startup aus China einen Chatbot vor, der ähnlich gut wie Chat-GPT war, aber nur einen Bruchteil dessen in der Entwicklung gekostet hatte. Über Nacht zog Deepseek auf Millionen von Smartphones weltweit ein – und erschütterte das Silicon Valley schwer: Tech-Konzerne wie Nvidia und Microsoft verloren Milliarden an den Börsen.
Der neue chinesische Konkurrent schien aus dem Nichts gekommen zu sein. Doch wer das Leaderboard der Chatbot-Arena verfolgt hatte, war von Deepseeks Erfolg wenig überrascht: Dort waren die KI-Modelle des chinesischen Startups bereits während Wochen im Leaderboard aufgetaucht. Prototypen von Deepseeks KI-Modell hatten die amerikanischen Konkurrenten in der Chatbot-Arena immer wieder besiegt, lange bevor das R1-Modell Schlagzeilen in westlichen Medien machte.
Vorwurf der BevorzugungInzwischen hat sich das Leaderboard zum De-facto-Industriestandard für die Qualität von KI-Modellen entwickelt. Mitte April hat Angelopoulos mit seinem Kommilitonen Wei-Lin Chiang und seinem Professor Ion Stoica aus dem Forschungsprojekt eine Firma gemacht. Die Chatbot-Arena heisst nun LM-Arena. Die drei Gründer haben 100 Millionen Dollar von Investoren aufgenommen, unter ihnen einige der renommiertesten Wagniskapitalgeber des Silicon Valley wie Andreessen Horowitz und Kleiner Perkins.
Das Startup werde mit 600 Millionen Dollar bewertet, berichtet Bloomberg. «Es fühlt sich an, als ob wir auf einer Rakete sitzen und nur versuchen, uns festzuhalten», sagt Angelopoulos lachend.
Doch bei aller Popularität erntet die Arena auch Kritik: In einer im Mai publizierten Studie etwa beklagen Forscher der Universität Princeton und des Massachusetts Institute of Technology, dass die LM-Arena Open-Source-Modelle benachteilige. Konkret werfen sie Angelopoulos und seinen Mitgründern vor, dass die Entwickler von proprietären KI-Modellen mehrere Versionen in der Arena testen könnten, aber nur die Version, die am besten abschneide, erscheine auf dem öffentlichen Leaderboard. Entwickler von Open-Source-Modellen haben diese Möglichkeit nicht.
Darauf angesprochen, spielt Angelopoulos die Kritik herunter. «Wir bekommen jeden Tag Feedback, weil wir viele sehr leidenschaftliche Nutzer haben.» Man stehe mit den Autoren der Studie in Kontakt. Angelopoulos beharrt darauf: Die Rangliste spiegle wahrheitsgetreu das Votum von Millionen von realen Nutzern. «Es gibt keine Möglichkeit, da zu schummeln», sagt er. «Wir sind neutral, das ist unser wichtigster Wert.»
Das Geschäftsmodell: Firmenkunden erschliessenAuch jetzt, da aus dem Forschungsprojekt eine profitgetriebene Firma geworden ist, soll die Arena für die Nutzer gratis bleiben. Man will auch unbedingt den Teil der Nutzerbasis ausweiten, der nicht aus der Tech-Industrie stammt, um ein breiteres Spektrum an Anfragen an die Chatbots zu erhalten.
Geld verdienen wollen die Gründer mit den Daten, die sie im Hintergrund gewinnen. Diese Erkenntnisse will man an Firmenkunden verkaufen. Denn Firmen hätten im neuen KI-Zeitalter viele Fragen, sagt Angelopoulos: Wann liefert KI wirklich verlässliche Antworten, welches Modell ist für die jeweilige Industrie das beste, wie wechselt man zwischen verschiedenen Chatbots? «Wir haben jede Menge Vergleichsdaten», sagt Angelopoulos. «Das hilft uns sehr dabei, die Stärken und die Schwächen einzelner Modelle zu verstehen und auch, für welche Art von Prompt welches Modell das beste ist.»
Am Leaderboard selbst soll sich nichts ändern, das Ranking der besten Modelle soll genau so bestehen bleiben. Schliesslich ist genau diese Bestenliste gut darin, den Ehrgeiz der Tech-Chefs anzustacheln und die Arena in aller Munde zu halten.
nzz.ch