Chatbot'lar için bir boks ringi: Yapay zeka modelleri LM Arena'da birbirleriyle yarışıyor


Resim Simon Tanner / Yeni Zelanda
Yapay zeka sohbet robotlarının dünyası kafa karıştırıcı olabilir. Open AI'dan Chat-GPT günlük sorular için en iyisi olarak kabul edilirken, birçok kişi görüntü ve metin üretimi için Claude'u tercih ediyor. Ve programlama konusunda yardıma ihtiyaç duyanlar genellikle rakip Perplexity'ye yöneliyor. Ancak bunların hepsi yarın güncelliğini yitirebilir, çünkü yeni yapay zeka modelleri yağmurdan sonra mantar gibi türüyor.
NZZ.ch önemli işlevler için JavaScript gerektirir. Tarayıcınız veya reklam engelleyiciniz şu anda bunu engelliyor.
Lütfen ayarları düzenleyin.
Bunları en iyi şekilde nasıl karşılaştırırsınız? Satranç sıralamaları Elo puanını ve FIDE derecelendirme sistemini kullanır; borsalar AAA'dan D'ye kadar derecelendirme ölçeklerini benimsemiştir; ve Amerikan üniversiteleri efsanevi üniversite derecelendirmelerinde yarışmaktadır.
Bir avuç bilim insanı aynı fikri AI modellerine uyguladı: Büyük Model Arenası veya kısaca LM Arenası veya Chatbot Arenası olarak da bilinen bu alan, AI chatbot'ları için bir yarışma ringi gibidir. Burada, Open AI, Google, Anthropic ve diğerlerinden en iyi modeller yarışır. Doğrudan karşılaştırmalarda, jüriyi, yani kullanıcıyı, hangi modelin daha iyi performans gösterdiğine ikna etmeleri gerekir. Bu, satrançta veya bilgisayar oyunlarında kullanılana benzer bir Elo puanı ile sonuçlanır.
İşlem basittir: Kullanıcı platforma bir soru gönderir, platform da körü körüne ve anonim olarak cevaplaması için iki sohbet robotu seçer. Kullanıcı hangi cevabı tercih ettiğine karar verir—ya da her ikisinin de eşit derecede iyi olup olmadığına veya her ikisinin de işe yaramaz olup olmadığına. Tüm derecelendirmeler ağırlıklı bir sıralamaya, yani sözde bir liderlik tablosuna eklenir.
Resim: Ekran Görüntüsü LM-Arena
Kullanıcılar her türlü soruyu sorduğu için—günlük sorulardan programlama sorunlarına—sıralama bir modelin kullanışlılığına dair iyi bir genel bakış sağlar. Üç milyondan fazla kullanıcı artık hakem olarak hareket etti. Chatbot Arena'nın teklifi onlar için çekici çünkü ücretsiz: AI şirketlerinin en son ve en iyi modellerine ödeme yapmadan sorularını sorabilirler.
Teknoloji CEO'ları da liderlik tablosunu takip ediyor: Deep Mind'ın kurucusu Demis Hassabis, sosyal medyada düzenli olarak sıralamaların ekran görüntülerini paylaşıyor ve Elon Musk, yapay zeka modeli Grok'un çok kısa bir sürede en yüksek puanları almasıyla övündü . Ve Google CEO'su Sundar Pichai yakın zamanda şirketinin en önemli etkinliğini "LM arenasında, modellerimiz en üst sıralarda yer alıyor." diyerek coşkuyla açtı. Gerçekten de Google'ın en son yapay zeka modeli Gemini 2.5 Pro, Mart ortasında piyasaya sürülmesinden bu yana, rakip modeli Open AI'nın o3'ünün önünde sıralamalarda başı çekiyor.
Tüm bunlar sadece bir aldatmaca değil; gerçek ticari çıkarımları var. AI şirketleri arasındaki rekabet şu anda o kadar şiddetli ki, rekabette algılanan herhangi bir avantaj yeni müşteriler ve uzmanlar çekmeye yardımcı olabilir. Bu nedenle teknoloji CEO'ları, hisse senetlerinin borsadaki hareketlerini takip ettikleri gibi liderlik tablosunu da takip ederler.
Meta'daki AI ürün müdürü Joseph Spisak, Wall Street Journal'a "Şu anda herkes sıralamada zirveye çıkmaya çalışıyor," dedi . "Bir avuç öğrencinin böyle bir şey yapabildiğini görmek etkileyici."
Platform tek bir hafta sonu içerisinde programlandıAslında, arenanın başlangıcı mütevazıydı: 2023'ün başlarında, Chat-GPT'nin sürpriz başarısından sadece birkaç ay sonra, Berkeley Üniversitesi'ndeki bazı bilgisayar bilimi doktora öğrencileri açık kaynaklı bir yaklaşım kullanarak kendi dil modellerini oluşturmuşlardı. Şimdi bu modelin Chat-GPT ile karşılaştırıldığında ne kadar iyi performans gösterdiğini göstermek istiyorlardı. Herkesin modelleri doğrudan karşılaştırabileceği ve kendi görüşlerini belirtebileceği fikrine sahiptiler. Bir hafta sonu boyunca Chatbot Arenası doğdu.
Bunu özel kılan şey, test edenlerin sadece nerd'ler değil, aynı zamanda genel halktan kişiler olmasıydı. Ve arena kesinlikle ruhu yakaladı: Sadece bir hafta sonra, 4.700 kullanıcı platformu ziyaret etmiş ve yorumlarını göndermişti.
Yapay zeka şirketleri bilim insanlarına yeni modellerin prototiplerini göndermeye başladı ve algoritmalarını arenada elde ettikleri içgörülerle geliştirdiler. Toplanan veriler kullanıcıların chatbot'larla nasıl etkileşime girdiğine dair değerli bilgiler sağlıyor. Platform bu verileri en azından kısmen yapay zeka şirketleriyle paylaşıyor. Kurucular toplanan tüm verilerin yaklaşık yüzde 20'sini paylaştıklarını söylüyor: Bilginin küçük iyileştirmeler yapmak için yararlı olması için yeterli, ancak şirketlerin sıralama sistemini alt edebilmesi için çok az.
İki yıl sonra, test kitlesi ayda yaklaşık bir milyon kullanıcıya ulaştı. Birbirleriyle yarışan orijinal dokuz AI modeli artık 400'den fazlasına ulaştı. Herkes lmarena.ai web sitesinde anonim olarak birbirleriyle yarışabilir - Open AI, Google ve Meta gibi Silikon Vadisi devlerinden Çin ve Avrupa'dan daha az bilinen AI şirketlerine kadar uzanan modeller. Puanınızı gönderene kadar cevapların arkasında hangi modelin olduğunu göremezsiniz.
"Kullanıcılarımızın geçmişleri çok farklı" diyor kurucu ortaklardan biri olan CEO Anastasios Angelopoulos, NZZ'ye verdiği röportajda: "Kullanıcılarımızın yaklaşık yüzde 60'ı teknoloji sektöründen geliyor, geri kalan kullanıcılar ise emlaktan sağlık sektörüne kadar çeşitli sektörlerden geliyor.
Angelopoulos, bu nedenle modellerin çok çeşitli taleplerde kendilerini kanıtlamaları gerektiğini söylüyor. Tüm değerlendirmelere dayanarak bir sıralama oluşturulur: genel olarak en iyi model ve programlama veya görüntü oluşturma için en iyi model gibi alt kategoriler için.
Deepseek aylar önce sıralamalarda yükseldiSıralama, yeni, ortaya çıkan AI modellerini belirleme konusunda da iyi işliyor. Bu, yılın başında gösterildi: Birçok kişinin şaşkınlığına, Çin'den az bilinen bir girişim, Chat-GPT kadar iyi olan ancak geliştirme süresinin yalnızca bir kısmına mal olan bir sohbet robotu sundu. Deepseek, bir gecede dünya çapında milyonlarca akıllı telefona kuruldu ve Silikon Vadisi'ni ciddi şekilde sarstı : Nvidia ve Microsoft gibi teknoloji şirketleri borsada milyarlarca dolar kaybetti.
Yeni Çinli rakip birdenbire ortaya çıkmış gibi görünüyordu. Ancak chatbot arena liderlik tablosunu takip eden hiç kimse Deepseek'in başarısına pek şaşırmamıştı: Çinli girişimin AI modelleri haftalardır liderlik tablosunda yer alıyordu. Deepseek'in AI modelinin prototipleri, R1 modeli Batı medyasında manşetlere çıkmadan çok önce chatbot arenasında Amerikan rakiplerini defalarca yenmişti .
Kayırmacılık suçlamasıLiderlik tablosu o zamandan beri AI modellerinin kalitesi için fiili endüstri standardı haline geldi. Nisan ortasında Angelopoulos, öğrenci arkadaşı Wei-Lin Chiang ve profesör Ion Stoica ile birlikte araştırma projesini bir şirkete dönüştürdü. Chatbot arenası artık LM Arena olarak adlandırılıyor. Üç kurucu, Andreessen Horowitz ve Kleiner Perkins gibi Silikon Vadisi'nin en ünlü girişim sermayedarlarından bazıları da dahil olmak üzere yatırımcılardan 100 milyon dolar topladı.
Bloomberg'in haberine göre , girişimin değeri 600 milyon dolar. "Sanki bir roketin üzerinde oturuyormuşuz ve sadece tutunmaya çalışıyormuşuz gibi hissediyoruz," diyor Angelopoulos gülerek.
Ancak popülaritesine rağmen, arena aynı zamanda eleştiri de çekti: Mayıs ayında yayınlanan bir çalışmada, Princeton Üniversitesi ve Massachusetts Teknoloji Enstitüsü'nden araştırmacılar, LM Arena'nın açık kaynaklı modellere karşı ayrımcılık yaptığından şikayet ettiler . Özellikle, Angelopoulos ve kurucu ortaklarını, tescilli AI modellerinin geliştiricilerinin arenada birden fazla sürümü test etmelerine izin vermekle suçladılar, ancak yalnızca en iyi performansı gösteren sürüm genel liderlik tablosunda görünüyor. Açık kaynaklı modellerin geliştiricileri bu seçeneğe sahip değil.
Bu sorulduğunda, Angelopoulos eleştirileri önemsemiyor. "Her gün geri bildirim alıyoruz çünkü çok tutkulu kullanıcılarımız var." Çalışmanın yazarlarıyla iletişim halindeler. Angelopoulos, sıralamaların milyonlarca gerçek kullanıcının oylarını sadakatle yansıttığını söylüyor. "Hile yapmanın bir yolu yok," diyor. "Biz tarafsızız; bu bizim en önemli değerimiz."
İş modeli: Kurumsal müşterilere ulaşmakAraştırma projesi artık kâr odaklı bir şirket haline gelmiş olsa da, arenanın kullanıcılar için ücretsiz kalması amaçlanıyor. Şirket ayrıca, chatbot'lar için daha geniş bir sorgu yelpazesi alabilmek amacıyla kullanıcı tabanını teknoloji endüstrisinin dışına genişletmeyi amaçlıyor.
Kurucular sahne arkasında topladıkları verileri paraya çevirmek istiyorlar. Bu içgörüleri kurumsal müşterilere satmayı planlıyorlar. Angelopoulos, şirketlerin yeni AI çağında birçok sorusu olduğunu söylüyor: AI ne zaman gerçekten güvenilir yanıtlar sağlıyor, hangi model belirli bir sektör için en iyisi ve farklı sohbet robotları arasında nasıl geçiş yapıyorsunuz? Angelopoulos, "Çok sayıda karşılaştırmalı verimiz var," diyor. "Bu, bireysel modellerin güçlü ve zayıf yönlerini ve hangi modelin hangi tür istem için en iyi olduğunu anlamamıza büyük ölçüde yardımcı oluyor."
Liderlik tablosunun kendisi değişmeden kalacak; en iyi modellerin sıralaması değişmeden kalacak. Sonuçta, bu liderlik tablosu teknoloji yöneticilerinin hırsını teşvik etmenin ve arenayı herkesin aklında tutmanın harika bir yoludur.
nzz.ch