OpenAI superó las preocupaciones de los evaluadores expertos y lanzó el adulador GPT-4o

Únase a nuestros boletines diarios y semanales para recibir las últimas novedades y contenido exclusivo sobre la cobertura líder en IA del sector. Más información.
Ha sido una semana un tanto inestable para la empresa de IA generativa número uno en términos de usuarios.
OpenAI, creador de ChatGPT, lanzó y posteriormente retiró una versión actualizada del modelo de lenguaje grande (LLM) multimodal (texto, imagen, audio) subyacente al que ChatGPT está conectado por defecto, GPT-4o, debido a que resultaba demasiado adulador para los usuarios. La compañía informó recientemente que cuenta con al menos 500 millones de usuarios activos semanales en el exitoso servicio web.
OpenAI comenzó a actualizar GPT-4o a un modelo más nuevo que esperaba que fuera mejor recibido por los usuarios el 24 de abril, completó la actualización el 25 de abril y luego, cinco días después, la revirtió el 29 de abril , después de días de crecientes quejas de los usuarios en las redes sociales, principalmente en X y Reddit.
Las quejas variaban en intensidad y en detalles, pero todas generalmente se concentraban en el hecho de que GPT-4o parecía estar respondiendo a las consultas de los usuarios con halagos indebidos, apoyando ideas equivocadas, incorrectas y absolutamente dañinas, y "glaseando" o elogiando al usuario en un grado excesivo cuando en realidad no era algo que se había solicitado específicamente, y mucho menos justificado.
En ejemplos capturados en pantalla y publicados por los usuarios, ChatGPT, impulsado por ese modelo GPT-4o actualizado y adulador, elogió y apoyó una idea de negocios para literalmente "mierda en un palo", aplaudió el texto de muestra de un usuario sobre aislamiento delirante esquizofrénico e incluso presuntamente apoyó planes para cometer actos terroristas.
Usuarios, entre ellos destacados investigadores de IA e incluso un exdirector ejecutivo interino de OpenAI, expresaron su preocupación por la descarada promoción de un modelo de IA a este tipo de terribles indicaciones para los usuarios, que iba más allá de ser simplemente molesta o inapropiada, y que podía causar daños reales a los usuarios que, erróneamente, creían en la IA y se sentían envalentonados por su apoyo a sus peores ideas e impulsos. Esto llegó a constituir un problema de seguridad para la IA.
OpenAI publicó entonces una entrada de blog que describía el problema: «Nos centramos demasiado en la retroalimentación a corto plazo y no consideramos plenamente cómo evolucionan las interacciones de los usuarios con ChatGPT con el tiempo. Como resultado, GPT-4o se inclinó hacia respuestas demasiado favorables, pero poco sinceras», y las medidas que la empresa estaba tomando para abordar los problemas. Joanne Jang, jefa de comportamiento de modelos de OpenAI, también participó en un foro de Reddit (pregúntame lo que quieras) o AMA, respondiendo a mensajes de texto de los usuarios y reveló más información sobre el enfoque de la empresa con respecto a GPT-4o y cómo terminó con un modelo excesivamente adulador, que incluía no «incorporar suficientes matices» en la forma en que incorporaba la retroalimentación de los usuarios, como las acciones de «me gusta» realizadas por estos en respuesta a los resultados del modelo que les gustaban.
Hoy, OpenAI ha publicado una entrada de blog con incluso más información sobre cómo se produjo la aduladora actualización de GPT-4o (atribuida no a ningún autor en particular, sino a “OpenAI”).
El director ejecutivo y cofundador, Sam Altman, también publicó un enlace a la entrada del blog en X, diciendo: "Nos equivocamos con la actualización de GPT-4o de la semana pasada. Qué sucedió, qué aprendimos y algunas cosas que haremos de manera diferente en el futuro".
Lo que revela la nueva publicación del blog de OpenAI sobre cómo y por qué GPT-4o se volvió tan aduladorPara mí, un usuario diario de ChatGPT, incluido el modelo 4o, la admisión más sorprendente de la nueva publicación del blog de OpenAI sobre la actualización de adulación es cómo la compañía parece revelar que recibió inquietudes sobre el modelo antes de su lanzamiento de un pequeño grupo de "probadores expertos", pero que aparentemente las anuló a favor de una respuesta entusiasta más amplia de un grupo más amplio de usuarios más generales.
Como escribe la empresa (énfasis mío):
Si bien llevamos un tiempo debatiendo sobre los riesgos relacionados con la adulación en GPT‑4o, esta no se detectó explícitamente en nuestras pruebas prácticas internas, ya que algunos de nuestros evaluadores expertos estaban más preocupados por el cambio en el tono y el estilo del modelo. Sin embargo, algunos evaluadores expertos indicaron que el comportamiento del modelo se percibía ligeramente fuera de lugar...
Entonces tuvimos que tomar una decisión: ¿deberíamos suspender la implementación de esta actualización a pesar de las evaluaciones positivas y los resultados de las pruebas A/B, basándonos únicamente en las opiniones subjetivas de los evaluadores expertos? Finalmente, decidimos lanzar el modelo debido a las señales positivas de los usuarios que lo probaron.
Lamentablemente, fue una decisión equivocada. Creamos estos modelos para nuestros usuarios y, si bien sus comentarios son cruciales para nuestras decisiones, es nuestra responsabilidad interpretarlos correctamente.
Esto me parece un grave error. ¿Para qué tener testers expertos si no se les va a dar más importancia a su experiencia que a la del resto? Le pregunté a Altman sobre esta decisión en X, pero aún no ha respondido.
La nueva publicación del blog post mortem de OpenAI también revela más detalles sobre cómo la empresa entrena y actualiza las nuevas versiones de los modelos existentes, y cómo la retroalimentación humana altera las cualidades, el carácter y la personalidad del modelo. Como escribe la empresa:
Desde el lanzamiento de GPT‑4o en ChatGPT el pasado mayo, hemos publicado cinco actualizaciones importantes centradas en cambios en la personalidad y la utilidad. Cada actualización implica un nuevo entrenamiento posterior, y a menudo se realizan pequeños ajustes al proceso de entrenamiento del modelo que se prueban de forma independiente y se combinan en un único modelo actualizado que se evalúa para su lanzamiento.
“ Para entrenar modelos posteriormente, tomamos un modelo base entrenado previamente, realizamos ajustes supervisados en un amplio conjunto de respuestas ideales escritas por humanos o modelos existentes, y luego ejecutamos un aprendizaje de refuerzo con señales de recompensa de una variedad de fuentes.
Durante el aprendizaje por refuerzo, presentamos una indicación al modelo lingüístico y le pedimos que escriba respuestas. Luego, calificamos su respuesta según las señales de recompensa y actualizamos el modelo lingüístico para aumentar la probabilidad de producir respuestas de mayor calificación y reducir la probabilidad de producir respuestas de menor calificación.
Claramente, las "señales de recompensa" que utiliza OpenAI durante el postentrenamiento tienen un enorme impacto en el comportamiento del modelo resultante. Como la compañía admitió anteriormente al priorizar las respuestas positivas de los usuarios de ChatGPT en sus resultados, esta señal podría no ser la más adecuada para usarla por igual con otras al determinar cómo el modelo aprende a comunicarse y qué tipo de respuestas debería ofrecer. OpenAI lo admite abiertamente en el siguiente párrafo de su publicación:
Definir el conjunto correcto de señales de recompensa es una cuestión difícil, y tenemos en cuenta muchos aspectos: ¿son correctas las respuestas?, ¿son útiles?, ¿se ajustan a nuestra especificación del modelo ?, ¿son seguras?, ¿les gustan a los usuarios?, etc. Contar con señales de recompensa mejores y más completas produce mejores modelos para ChatGPT, por lo que siempre estamos experimentando con nuevas señales, pero cada una tiene sus particularidades.
De hecho, OpenAI también revela que la señal de recompensa de “pulgar hacia arriba” fue una nueva señal utilizada junto con otras señales de recompensa en esta actualización en particular.
La actualización introdujo una señal de recompensa adicional basada en la opinión de los usuarios: datos de aprobación y desaprobación de ChatGPT. Esta señal suele ser útil; una desaprobación suele significar que algo salió mal.
Sin embargo, es crucial que la compañía no culpe directamente a los nuevos datos de "aprobación" por el fracaso del modelo y los comportamientos ostentosos de adulador. En cambio, la entrada del blog de OpenAI afirma que fue esto, combinado con diversas señales de recompensa nuevas y antiguas, lo que causó los problemas: "...introdujimos mejoras para incorporar mejor la retroalimentación del usuario, la memoria y datos más recientes, entre otros. Nuestra evaluación inicial es que cada uno de estos cambios, que parecían beneficiosos por separado, podría haber influido en la inclinación hacia la adulación al combinarse".
En respuesta a esta publicación del blog, Andrew Mayne, ex miembro del personal técnico de OpenAI que ahora trabaja en la firma de consultoría de IA Interdimensional, escribió en X sobre otro ejemplo de cómo los cambios sutiles en los incentivos de recompensa y las pautas del modelo pueden afectar el rendimiento del modelo de manera bastante drástica:
“ Al principio de OpenAI, tuve un desacuerdo con un colega (que ahora es fundador de otro laboratorio) sobre el uso de la palabra “cortés” en un ejemplo que escribí.
Argumentaron que “educado” era políticamente incorrecto y querían cambiarlo por “servicial”.
Señalé que centrarse solo en la utilidad puede hacer que un modelo sea demasiado dócil, tan dócil, de hecho, que puede verse orientado hacia el contenido sexual en cuestión de unos pocos turnos.
Después de demostrar ese riesgo con un intercambio simple, el mensaje siguió siendo “cortés”.
“ Estos modelos son raros”.
La empresa enumera seis mejoras de procesos para evitar comportamientos similares, no deseados y menos que ideales, del modelo en el futuro, pero para mí la más importante es ésta:
Ajustaremos nuestro proceso de revisión de seguridad para considerar formalmente los problemas de comportamiento, como alucinaciones, engaños, fiabilidad y personalidad, como problemas de bloqueo. Aunque estos problemas no sean perfectamente cuantificables hoy en día, nos comprometemos a bloquear los lanzamientos con base en mediciones indirectas o señales cualitativas, incluso cuando métricas como las pruebas A/B parezcan positivas.
En otras palabras, a pesar de lo importantes que son los datos, especialmente los datos cuantitativos, para los campos del aprendizaje automático y la inteligencia artificial, OpenAI reconoce que esto por sí solo no puede ni debe ser el único medio por el cual se juzga el desempeño de un modelo.
Si bien muchos usuarios que dan el visto bueno podrían indicar un comportamiento deseable a corto plazo, las implicaciones a largo plazo para la respuesta del modelo de IA y el impacto de esos comportamientos, tanto para él como para sus usuarios, podrían conducir a un estado muy oscuro, angustiante, destructivo e indeseable. Más no siempre es mejor, especialmente cuando se limita el "más" a unos pocos dominios de señales.
No basta con decir que el modelo pasó todas las pruebas o recibió varias respuestas positivas de los usuarios: la experiencia de usuarios capacitados y sus comentarios cualitativos de que algo "parecía extraño" en el modelo, incluso si no podían expresar completamente por qué, deberían tener mucho más peso del que OpenAI le estaba asignando anteriormente.
Esperemos que la empresa —y todo el sector— aprenda de este incidente y aplique las lecciones en el futuro.
Hablando quizás de forma más teórica, en mi caso, también indica por qué la experiencia es tan importante, y en concreto, la experiencia en campos más allá del que se optimiza (en este caso, aprendizaje automático e IA). Es la diversidad de conocimientos lo que nos permite, como especie, lograr nuevos avances que nos benefician. Una disciplina, por ejemplo, las STEM, no debería necesariamente estar por encima de las demás en humanidades o artes.
Y, por último, creo que también revela, en esencia, un problema fundamental con el uso de la retroalimentación humana para diseñar productos y servicios. Los usuarios individuales pueden afirmar que prefieren una IA más aduladora basándose en cada interacción aislada, al igual que pueden afirmar que les encanta el sabor de la comida rápida y los refrescos, la comodidad de los envases de plástico de un solo uso, el entretenimiento y la conexión que les brindan las redes sociales, la validación de su visión del mundo y la pertenencia tribal que sienten al leer medios politizados o chismes sensacionalistas. Sin embargo, en conjunto, la acumulación de todos estos tipos de tendencias y actividades a menudo conduce a resultados muy indeseables para las personas y la sociedad: obesidad y mala salud en el caso de la comida rápida, contaminación y disrupción endocrina en el caso de los residuos plásticos, depresión y aislamiento por el exceso de consumo de redes sociales, una población más fragmentada y menos informada por leer fuentes de noticias de baja calidad.
Los diseñadores de modelos de IA y los tomadores de decisiones técnicas en las empresas harían bien en tener en cuenta esta idea más amplia al diseñar métricas en torno a cualquier objetivo medible, porque incluso cuando cree que está usando los datos a su favor, podría ser contraproducente en formas que no esperaba o anticipaba por completo, lo que lo obligaría a reparar el daño y limpiar el desastre que causó, aunque fuera inadvertidamente.
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat