Seleccione idioma

Spanish

Down Icon

Seleccione país

Germany

Down Icon

Un ring de boxeo para chatbots: los modelos de IA compiten entre sí en el LM Arena

Un ring de boxeo para chatbots: los modelos de IA compiten entre sí en el LM Arena
Los 9 modelos de IA originales que competían entre sí en la arena ahora han crecido a más de 400.

Ilustración Simon Tanner / NZZ

El mundo de los chatbots de IA puede ser confuso. Chat-GPT de Open AI se considera el mejor para preguntas cotidianas, mientras que muchos prefieren Claude para la generación de imágenes y texto. Quienes necesitan ayuda con la programación suelen recurrir a su competidor Perplexity. Pero todo esto podría quedar obsoleto mañana, ya que los nuevos modelos de IA están apareciendo como hongos después de la lluvia.

NZZ.ch requiere JavaScript para funciones importantes. Su navegador o bloqueador de anuncios lo impide.

Por favor ajuste la configuración.

¿Cuál es la mejor manera de compararlos? Los rankings de ajedrez utilizan la puntuación Elo y el sistema de clasificación de la FIDE; los mercados bursátiles han adoptado escalas de clasificación de AAA a D; y las universidades estadounidenses compiten en las legendarias clasificaciones universitarias.

Algunos científicos han aplicado la misma idea a los modelos de IA: el Large Model Arena, o LM Arena para abreviar, o también conocido como Chatbot Arena, es como un cuadrilátero de competición para chatbots de IA. Aquí compiten los mejores modelos de Open AI, Google, Anthropic y otras empresas. En comparaciones directas, deben convencer al jurado —es decir, al usuario— de qué modelo tiene el mejor rendimiento. Esto da como resultado una puntuación Elo, similar a la utilizada en ajedrez o juegos de ordenador.

El proceso es sencillo: el usuario envía una pregunta a la plataforma, que selecciona, de forma anónima y a ciegas, dos chatbots para responder. El usuario decide qué respuesta prefiere, si ambas son igual de buenas o si son inútiles. Todas las valoraciones se suman a una clasificación ponderada, denominada tabla de clasificación.

El último modelo de Google, Gemini 2.5 Pro, lidera actualmente la clasificación de LM Arena.

Imagen: Captura de pantalla LM-Arena

Dado que los usuarios plantean todo tipo de preguntas, desde preguntas cotidianas hasta problemas de programación, la clasificación ofrece una buena visión general de la utilidad de un modelo. Más de tres millones de usuarios ya han actuado como referentes. La oferta de Chatbot Arena también les resulta atractiva por su gratuidad: pueden plantear sus preguntas a los modelos más recientes y destacados de empresas de IA sin tener que pagar.

Los directores ejecutivos del sector tecnológico también siguen de cerca la clasificación: Demis Hassabis, fundador de Deep Mind, publica regularmente capturas de pantalla de las clasificaciones en redes sociales, y Elon Musk presumió cuando su modelo de IA, Grok, alcanzó las mejores puntuaciones en muy poco tiempo. Y el director ejecutivo de Google, Sundar Pichai, inauguró recientemente el evento más importante de su compañía con una exultante declaración: «En el ámbito de la inteligencia artificial, nuestros modelos están en lo más alto». De hecho, el último modelo de IA de Google, Gemini 2.5 Pro, ha liderado la clasificación desde su lanzamiento a mediados de marzo, por delante de su modelo rival, el o3 de Open AI.

No se trata de un simple truco publicitario; tiene implicaciones comerciales reales. La competencia entre las empresas de IA es tan feroz que cualquier ventaja percibida sobre la competencia puede ayudar a atraer nuevos clientes y especialistas. Por lo tanto, los directores ejecutivos del sector tecnológico siguen la clasificación como siguen la evolución de sus acciones en la bolsa.

"Todos están intentando llegar a lo más alto de los rankings ahora mismo", declaró Joseph Spisak, gerente de producto de IA en Meta, al Wall Street Journal . "Es impresionante ver que un puñado de estudiantes puedan lograr algo así".

La plataforma fue programada en un solo fin de semana

De hecho, los inicios de la Arena fueron modestos: a principios de 2023, tan solo unos meses después del sorprendente éxito de Chat-GPT, algunos estudiantes de doctorado en informática de la Universidad de Berkeley desarrollaron su propio modelo de lenguaje con un enfoque de código abierto. Ahora querían demostrar el rendimiento de este modelo en comparación con Chat-GPT. Tenían la idea de que cualquiera pudiera comparar directamente los modelos y dar su opinión. En un fin de semana, nació la Arena de Chatbots.

Como estudiantes de doctorado en la Universidad de Berkeley, a Wei-Lin Chiang (izquierda) y Anastasios Angelopoulos se les ocurrió la idea de que los modelos de IA compitieran entre sí en una arena.

Lo que lo hizo especial fue que quienes lo probaron no eran solo nerds, sino público en general. Y la arena sin duda captó el espíritu de la época: después de tan solo una semana, 4700 usuarios ya habían visitado la plataforma y enviado sus reseñas.

Las empresas de IA comenzaron a enviar prototipos de nuevos modelos a los científicos y mejoraron sus algoritmos con la información obtenida en el campo. Los datos recopilados proporcionan información valiosa sobre cómo los usuarios interactúan con los chatbots. La plataforma comparte estos datos con las empresas de IA, al menos en parte. Los fundadores afirman compartir alrededor del 20 % de todos los datos recopilados: suficiente para que la información sea útil para realizar pequeñas mejoras, pero insuficiente para que las empresas puedan superar el sistema de clasificación.

Dos años después, la audiencia de prueba ha crecido a cerca de un millón de usuarios al mes. Los nueve modelos de IA que competían entre sí han crecido a más de 400. Cualquiera puede competir anónimamente en el sitio web lmarena.ai : modelos que abarcan desde gigantes de Silicon Valley como Open AI, Google y Meta hasta empresas de IA menos conocidas de China y Europa. No verás qué modelo está detrás de las respuestas hasta que envíes tu calificación.

Anastasios Angelopoulos.

"Nuestros usuarios tienen orígenes muy diversos", afirma uno de los fundadores, el CEO Anastasios Angelopoulos, en una entrevista con NZZ: alrededor del 60 por ciento proviene de la industria tecnológica, el resto de los usuarios provienen de diversos sectores, desde el inmobiliario hasta el sector sanitario.

Por lo tanto, los modelos deben demostrar su eficacia en una gran variedad de solicitudes, afirma Angelopoulos. Con base en todas las evaluaciones, se crea una clasificación: para el mejor modelo en general y para subcategorías como el mejor modelo para programación o generación de imágenes.

Deepseek subió en el ranking hace meses

La clasificación también funciona bien para identificar nuevos modelos emergentes de IA. Esto se demostró a principios de año: para sorpresa de muchos, una startup china poco conocida presentó un chatbot tan bueno como Chat-GPT, pero con un coste de desarrollo mucho menor. De la noche a la mañana, Deepseek se instaló en millones de smartphones en todo el mundo y sacudió gravemente a Silicon Valley : empresas tecnológicas como Nvidia y Microsoft perdieron miles de millones en bolsa.

El nuevo competidor chino parecía haber surgido de la nada. Pero a cualquiera que hubiera seguido la clasificación del sector de los chatbots no le sorprendió el éxito de Deepseek: los modelos de IA de la startup china ya figuraban en la clasificación desde hacía semanas. Los prototipos del modelo de IA de Deepseek habían derrotado repetidamente a competidores estadounidenses en el sector de los chatbots mucho antes de que el modelo R1 acaparara titulares en los medios occidentales.

Acusación de favoritismo

Desde entonces, la tabla de clasificación se ha convertido en el estándar de facto de la industria para la calidad de los modelos de IA. A mediados de abril, Angelopoulos, junto con su compañero de estudios Wei-Lin Chiang y el profesor Ion Stoica, convirtieron el proyecto de investigación en una empresa. El espacio de los chatbots ahora se llama LM Arena. Los tres fundadores han recaudado 100 millones de dólares de inversores, incluyendo algunos de los capitalistas de riesgo más reconocidos de Silicon Valley, como Andreessen Horowitz y Kleiner Perkins.

La startup está valorada en 600 millones de dólares, según informa Bloomberg . «Parece que estamos en un cohete, intentando simplemente aguantar», dice Angelopoulos entre risas.

Pero a pesar de su popularidad, el estadio también ha recibido críticas: en un estudio publicado en mayo, investigadores de la Universidad de Princeton y el Instituto Tecnológico de Massachusetts (MIT) se quejaron de que el LM Arena discrimina a los modelos de código abierto. En concreto, acusaron a Angelopoulos y a sus cofundadores de permitir que los desarrolladores de modelos de IA propietarios prueben varias versiones en el estadio, pero solo la versión con mejor rendimiento aparece en la clasificación pública. Los desarrolladores de modelos de código abierto no tienen esta opción.

Al preguntarle sobre esto, Angelopoulos resta importancia a las críticas. «Recibimos comentarios a diario porque tenemos muchos usuarios muy apasionados». Están en contacto con los autores del estudio. Angelopoulos insiste en que las clasificaciones reflejan fielmente los votos de millones de usuarios reales. «No hay forma de hacer trampa», afirma. «Somos neutrales; ese es nuestro valor más importante».

El modelo de negocio: aprovechar al máximo a los clientes corporativos

Incluso ahora que el proyecto de investigación se ha convertido en una empresa con ánimo de lucro, se prevé que el espacio siga siendo gratuito para los usuarios. La empresa también pretende ampliar su base de usuarios fuera del sector tecnológico para recibir una mayor variedad de consultas para los chatbots.

Los fundadores quieren monetizar los datos que recopilan entre bastidores. Planean vender esta información a clientes corporativos. Las empresas se plantean muchas preguntas en la nueva era de la IA, afirma Angelopoulos: ¿Cuándo proporciona la IA respuestas realmente fiables?, ¿qué modelo es el mejor para un sector concreto? y ¿cómo se cambia entre diferentes chatbots? "Disponemos de una gran cantidad de datos comparativos", añade Angelopoulos. "Esto nos ayuda enormemente a comprender las fortalezas y debilidades de cada modelo, así como a determinar qué modelo es el más adecuado para cada tipo de solicitud".

La tabla de clasificación se mantendrá sin cambios; la clasificación de los mejores modelos también. Al fin y al cabo, esta tabla de clasificación es una excelente manera de estimular la ambición de los ejecutivos tecnológicos y mantener el interés de todos en el sector.

nzz.ch

nzz.ch

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow