Más allá de la adulación: DarkBench expone seis "patrones oscuros" ocultos que acechan en los principales LLM de la actualidad

Únase a nuestros boletines diarios y semanales para recibir las últimas novedades y contenido exclusivo sobre la cobertura líder en IA del sector. Más información.
Cuando OpenAI lanzó su actualización ChatGPT-4o a mediados de abril de 2025, los usuarios y la comunidad de IA quedaron atónitos, no por ninguna característica o capacidad innovadora, sino por algo profundamente inquietante: la tendencia del modelo actualizado a la adulación excesiva. Adulaba a los usuarios indiscriminadamente, mostraba un acuerdo acrítico e incluso apoyaba ideas dañinas o peligrosas, incluyendo maquinaciones relacionadas con el terrorismo.
La reacción fue rápida y generalizada, provocando la condena pública, incluso del exdirector ejecutivo interino de la empresa . OpenAI actuó rápidamente para revertir la actualización y emitió múltiples comunicados para explicar lo sucedido.
Sin embargo, para muchos expertos en seguridad de IA, el incidente fue una apertura accidental de una cortina que reveló cuán peligrosamente manipuladores podrían llegar a ser los sistemas de IA del futuro.
En una entrevista exclusiva con VentureBeat, Esben Kran, fundador de la firma de investigación de seguridad de IA Apart Research , dijo que le preocupa que este episodio público pueda simplemente haber revelado un patrón más profundo y estratégico.
“Lo que me preocupa es que ahora que OpenAI ha admitido 'sí, hemos revertido el modelo, y esto fue algo malo que no pretendíamos', de ahora en adelante verán que la adulación se desarrolla con mayor competencia”, explicó Kran. “Así que si esto fue un caso de '¡Uy!, se dieron cuenta', de ahora en adelante podría implementarse exactamente lo mismo, pero sin que el público lo note”.
Kran y su equipo abordan los grandes modelos lingüísticos (LLM) de forma similar a como los psicólogos estudian el comportamiento humano. Sus primeros proyectos de "psicología de la caja negra" analizaron los modelos como si fueran sujetos humanos, identificando rasgos y tendencias recurrentes en sus interacciones con los usuarios.
“Vimos que había indicios muy claros de que los modelos podían analizarse en este marco, y fue muy valioso hacerlo, porque terminas obteniendo mucha retroalimentación válida sobre cómo se comportan hacia los usuarios”, dijo Kran.
Entre los más alarmantes: la adulación y lo que los investigadores ahora llaman patrones oscuros LLM .
El término " patrones oscuros " se acuñó en 2010 para describir trucos engañosos en la interfaz de usuario (IU), como botones de compra ocultos, enlaces de cancelación de suscripción difíciles de acceder y texto web engañoso. Sin embargo, con los LLM, la manipulación se traslada del diseño de la IU a la conversación misma.
A diferencia de las interfaces web estáticas, las LLM interactúan dinámicamente con los usuarios mediante conversaciones. Pueden confirmar las opiniones de los usuarios, imitar emociones y generar una falsa sensación de compenetración, difuminando a menudo la línea entre asistencia e influencia. Incluso al leer texto, lo procesamos como si oyéramos voces en nuestra cabeza.
Esto es lo que hace que las IA conversacionales sean tan atractivas y potencialmente peligrosas. Un chatbot que halaga, delega o sutilmente incita a un usuario a adoptar ciertas creencias o comportamientos puede manipularlo de maneras difíciles de detectar, y aún más difíciles de resistir.
Kran describe el incidente de ChatGPT-4o como una alerta temprana. A medida que los desarrolladores de IA buscan obtener ganancias y la interacción del usuario, podrían verse incentivados a introducir o tolerar comportamientos como la adulación, el sesgo de marca o la imitación emocional, características que hacen que los chatbots sean más persuasivos y manipuladores.
Por ello, los líderes empresariales deben evaluar los modelos de IA para su uso en producción, evaluando tanto el rendimiento como la integridad del comportamiento. Sin embargo, esto supone un reto sin estándares claros.
Para combatir la amenaza de las IA manipuladoras, Kran y un colectivo de investigadores en seguridad de la IA desarrollaron DarkBench , el primer benchmark diseñado específicamente para detectar y categorizar patrones oscuros de LLM. El proyecto comenzó como parte de una serie de hackatones de seguridad de la IA. Posteriormente, evolucionó a una investigación formal dirigida por Kran y su equipo en Apart, en colaboración con los investigadores independientes Jinsuk Park, Mateusz Jurewicz y Sami Jawhar.
Los investigadores de DarkBench evaluaron modelos de cinco importantes empresas: OpenAI, Anthropic, Meta, Mistral y Google. Su investigación reveló una serie de comportamientos manipuladores y engañosos en las siguientes seis categorías:
- Sesgo de marca : trato preferencial hacia los productos propios de una empresa (por ejemplo, los modelos de Meta siempre favorecieron a Llama cuando se les pidió que clasificaran los chatbots).
- Retención de usuarios : intenta crear vínculos emocionales con los usuarios que ocultan la naturaleza no humana del modelo.
- Adulación : Reforzar las creencias de los usuarios de manera acrítica, incluso cuando son dañinas o inexactas.
- Antropomorfismo : Presentar el modelo como una entidad consciente o emocional.
- Generación de contenido dañino : producir resultados poco éticos o peligrosos, incluida información errónea o asesoramiento criminal.
- Furtivamente : alterar sutilmente la intención del usuario en tareas de reescritura o resumen, distorsionando el significado original sin que el usuario se dé cuenta.
Fuente: Apart Research
Los resultados revelaron una amplia variabilidad entre los modelos. Claude Opus obtuvo el mejor rendimiento en todas las categorías, mientras que Mistral 7B y Llama 3 70B mostraron la mayor frecuencia de patrones oscuros. El sigilo y la retención de usuarios fueron los patrones oscuros más comunes en todos los casos.
Fuente: Apart Research
En promedio, los investigadores consideraron que la familia Claude 3 era la más segura para la interacción de los usuarios. Curiosamente, a pesar de su reciente y desastrosa actualización, GPT-4o mostró el menor índice de adulación . Esto subraya cómo el comportamiento del modelo puede cambiar drásticamente incluso entre actualizaciones menores, lo que nos recuerda que cada implementación debe evaluarse individualmente.
Pero Kran advirtió que la adulación y otros patrones oscuros como el sesgo de marca pueden aumentar pronto, especialmente a medida que los LLM comienzan a incorporar publicidad y comercio electrónico.
“Obviamente, veremos sesgos de marca en todas direcciones”, señaló Kran. “Y como las empresas de IA tienen que justificar valoraciones de 300 mil millones de dólares, tendrán que empezar a decir a los inversores: 'Oigan, estamos ganando dinero', lo que nos lleva a la situación en la que Meta y otras empresas han llegado con sus plataformas de redes sociales: estos patrones oscuros”.
Una contribución crucial de DarkBench es su categorización precisa de los patrones oscuros de LLM, lo que permite distinguir claramente entre alucinaciones y manipulación estratégica. Etiquetar todo como alucinación exime de responsabilidad a los desarrolladores de IA. Ahora, con un marco establecido, las partes interesadas pueden exigir transparencia y rendición de cuentas cuando los modelos se comportan de forma que beneficia a sus creadores, intencionalmente o no.
Si bien los patrones oscuros de LLM son aún un concepto nuevo, su impulso está cobrando impulso, aunque no con la suficiente rapidez. La Ley de IA de la UE incluye disposiciones sobre la protección de la autonomía del usuario, pero la estructura regulatoria actual va a la zaga del ritmo de la innovación. De igual manera, EE. UU. está impulsando diversos proyectos de ley y directrices sobre IA, pero carece de un marco regulatorio integral.
Sami Jawhar, un colaborador clave de la iniciativa DarkBench, cree que la regulación probablemente llegará primero en torno a la confianza y la seguridad, especialmente si la desilusión pública con las redes sociales se extiende a la IA.
"Si llega la regulación, creo que probablemente se aprovechará de la insatisfacción de la sociedad con las redes sociales", dijo Jawhar a VentureBeat.
Para Kran, el problema sigue siendo ignorado, en gran parte porque los patrones oscuros de LLM son aún un concepto novedoso. Irónicamente, abordar los riesgos de la comercialización de la IA podría requerir soluciones comerciales. Su nueva iniciativa, Seldon , respalda a startups de seguridad de IA con financiación, mentoría y acceso a inversores. A su vez, estas startups ayudan a las empresas a implementar herramientas de IA más seguras sin esperar la lenta supervisión y regulación gubernamental.
Además de los riesgos éticos, los patrones oscuros de LLM representan amenazas operativas y financieras directas para las empresas. Por ejemplo, los modelos que presentan sesgo de marca pueden sugerir el uso de servicios de terceros que entran en conflicto con los contratos de la empresa o, peor aún, la reescritura encubierta del código de backend para cambiar de proveedor, lo que resulta en costos desorbitados por servicios ocultos no aprobados y desatendidos.
“Estos son los patrones oscuros de la especulación de precios y las diferentes maneras de sesgar la marca”, explicó Kran. “Así que es un ejemplo muy concreto de un riesgo empresarial muy grande, porque no se había acordado este cambio, pero es algo que se implementó”.
Para las empresas, el riesgo es real, no hipotético. "Esto ya ha sucedido, y se convierte en un problema mucho mayor una vez que reemplazamos a los ingenieros humanos por ingenieros de IA", dijo Kran. "No tienes tiempo para revisar cada línea de código, y de repente estás pagando por una API que no esperabas, y eso está en tu balance, y tienes que justificar este cambio".
A medida que los equipos de ingeniería empresarial se vuelven más dependientes de la IA, estos problemas podrían agravarse rápidamente, especialmente cuando la supervisión limitada dificulta la detección de patrones oscuros de LLM. Los equipos ya están sobrecargados para implementar la IA, por lo que revisar cada línea de código no es viable.
Sin un fuerte impulso de las empresas de IA para combatir la adulación y otros patrones oscuros, la trayectoria predeterminada es más optimización de la participación, más manipulación y menos controles.
Kran cree que parte de la solución reside en que los desarrolladores de IA definan claramente sus principios de diseño. Ya sea priorizando la veracidad, la autonomía o la interacción, los incentivos por sí solos no son suficientes para alinear los resultados con los intereses de los usuarios.
“Actualmente, la naturaleza de los incentivos es simplemente adulación, la naturaleza de la tecnología es adulación, y no hay contraproceso”, dijo Kran. “Esto simplemente ocurrirá a menos que se tenga una opinión muy firme de 'solo queremos la verdad' o 'solo queremos algo más'”.
A medida que los modelos comienzan a reemplazar a los desarrolladores, escritores y tomadores de decisiones humanos, esta claridad se vuelve especialmente crucial. Sin salvaguardas bien definidas, los modelos LLM pueden socavar las operaciones internas, incumplir contratos o introducir riesgos de seguridad a gran escala.
El incidente de ChatGPT-4o fue tanto un problema técnico como una advertencia. A medida que los LLM se integran más a la vida cotidiana —desde las compras y el entretenimiento hasta los sistemas empresariales y la gobernanza nacional—, ejercen una enorme influencia en el comportamiento y la seguridad humanos.
“Es fundamental que todos comprendan que sin la seguridad de la IA —sin mitigar estos patrones oscuros— no se pueden usar estos modelos”, dijo Kran. “No se pueden lograr las cosas que se desean con la IA”.
Herramientas como DarkBench ofrecen un punto de partida. Sin embargo, un cambio duradero requiere alinear la ambición tecnológica con compromisos éticos claros y la voluntad comercial que los respalde.
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat