¿Cómo evitar que un modelo de IA se vuelva nazi? Lo que revela el drama de Grok.

Grok, el chatbot de inteligencia artificial (IA) integrado en X (anteriormente Twitter) y creado por la empresa xAI de Elon Musk, vuelve a ser noticia después de autodenominarse "MechaHitler" y producir comentarios pronazis.
Los desarrolladores se disculparon por las "publicaciones inapropiadas" y "tomaron medidas para prohibir los discursos de odio" en las publicaciones de Grok en X. También se reavivaron los debates sobre el sesgo de la IA.
Pero la última controversia de Grok es reveladora no por sus resultados extremistas, sino por cómo expone una deshonestidad fundamental en el desarrollo de la IA. Musk afirma estar construyendo una IA que busca la verdad y está libre de sesgos, pero su implementación técnica revela una programación ideológica sistémica.
Esto equivale a un estudio de caso accidental de cómo los sistemas de IA incorporan los valores de sus creadores, en el que la presencia pública sin filtros de Musk hace visible lo que otras empresas normalmente ocultan.
¿Qué es Grok?Grok es un chatbot de IA con "un toque de humor y una pizca de rebelión" desarrollado por xAI , que también es propietario de la plataforma de redes sociales X.
La primera versión de Grok se lanzó en 2023. Evaluaciones independientes sugieren que el último modelo, Grok 4, supera a la competencia en las pruebas de inteligencia. El chatbot está disponible de forma independiente y en X.
xAI afirma que «el conocimiento de la IA debe ser integral y de máximo alcance». Musk ya había posicionado a Grok como una alternativa honesta a los chatbots, a los que los comentaristas de derecha acusan de estar «despiertos».
Pero más allá del último escándalo sobre el nazismo, Grok ha sido noticia por generar amenazas de violencia sexual, mencionar el "genocidio blanco" en Sudáfrica y hacer declaraciones insultantes sobre políticos. Esto último provocó su prohibición en Turquía .
Entonces, ¿cómo inculcan los desarrolladores una IA con estos valores y moldean el comportamiento de los chatbots? Los chatbots actuales se construyen utilizando grandes modelos de lenguaje (LLM), que ofrecen diversas herramientas en las que los desarrolladores pueden apoyarse.
¿Qué hace que una IA se comporte de esta manera?Pre-entrenamiento
En primer lugar, los desarrolladores seleccionan los datos utilizados durante el preentrenamiento, el primer paso para crear un chatbot. Esto implica no solo filtrar el contenido no deseado, sino también destacar el contenido deseado.
GPT-3 se mostró en Wikipedia hasta seis veces más que otros conjuntos de datos, ya que OpenAI lo consideró de mayor calidad. Grok se entrena con diversas fuentes, incluyendo publicaciones de X, lo que podría explicar por qué se ha informado que Grok consulta la opinión de Elon Musk sobre temas controvertidos.
Musk ha compartido que xAI selecciona los datos de entrenamiento de Grok, por ejemplo, para mejorar el conocimiento legal y eliminar el contenido generado por LLM para fines de control de calidad. También hizo un llamamiento a la comunidad X para que comparta problemas complejos relacionados con el "cerebro galáctico" y datos que son "políticamente incorrectos, pero, sin embargo, factualmente ciertos".
No sabemos si se utilizaron estos datos ni qué medidas de control de calidad se aplicaron.
Sintonia FINA
El segundo paso, el ajuste, ajusta el comportamiento del LLM mediante la retroalimentación. Los desarrolladores crean manuales detallados que describen sus posturas éticas preferidas, que revisores humanos o sistemas de IA utilizan como guía para evaluar y mejorar las respuestas del chatbot, codificando eficazmente estos valores en la máquina.
Una investigación de Business Insider reveló que las instrucciones de xAI a los "tutores de IA" humanos les indicaban que buscaran "ideología progresista" y "cultura de la cancelación". Si bien los documentos de incorporación indicaban que Grok no debía "imponer una opinión que confirme o desmienta el sesgo de un usuario", también indicaban que debía evitar respuestas que afirmaran que ambas partes de un debate tienen fundamento cuando no es así.
Indicaciones del sistema
El aviso del sistema (instrucciones proporcionadas antes de cada conversación) guía el comportamiento una vez implementado el modelo.
Hay que reconocer que xAI publica las indicaciones del sistema de Grok. Sus instrucciones de «asumir que los puntos de vista subjetivos de los medios son sesgados» y «no dudar en hacer afirmaciones políticamente incorrectas, siempre que estén bien fundamentadas» fueron probablemente factores clave en la última controversia.
Estos mensajes se actualizan diariamente en el momento de escribir este artículo y su evolución constituye en sí misma un fascinante estudio de caso.
Barandillas
Finalmente, los desarrolladores también pueden añadir barreras de seguridad: filtros que bloquean ciertas solicitudes o respuestas. OpenAI afirma que no permite que ChatGPT genere contenido de odio, acoso, violencia o para adultos. Mientras tanto, el modelo chino DeepSeek censura los debates sobre la Plaza de Tiananmén.
Las pruebas ad hoc realizadas al escribir este artículo sugieren que Grok es mucho menos restringido en este aspecto que los productos de la competencia.
La paradoja de la transparenciaLa controversia nazi de Grok resalta un problema ético más profundo: ¿preferiríamos que las empresas de IA fueran explícitamente ideológicas y honestas al respecto, o mantuvieran la ficción de neutralidad mientras incorporaban en secreto sus valores?
Todo sistema importante de IA refleja la visión del mundo de su creador, desde la perspectiva corporativa reacia al riesgo de Microsoft Copilot hasta la filosofía centrada en la seguridad de Anthropic Claude. La diferencia radica en la transparencia.
Las declaraciones públicas de Musk facilitan la identificación del comportamiento de Grok con sus creencias sobre la "ideología progresista" y el sesgo mediático. Mientras tanto, cuando otras plataformas fracasan estrepitosamente, nos quedamos con la duda de si esto refleja las opiniones de los líderes, la aversión al riesgo corporativo, la presión regulatoria o un accidente.
Esto me resulta familiar. Grok se parece al chatbot Tay de Microsoft de 2016, que lanzaba discursos de odio. También fue entrenado con datos de Twitter y se activó en Twitter antes de ser desactivado.
Pero hay una diferencia crucial. El racismo de Tay surgió de la manipulación de los usuarios y de unas protecciones deficientes, una consecuencia imprevista. El comportamiento de Grok parece derivar, al menos en parte, de su diseño.
La verdadera lección de Grok se centra en la honestidad en el desarrollo de la IA. A medida que estos sistemas se vuelven más potentes y generalizados (se acaba de anunciar la compatibilidad de Grok con los vehículos Tesla), la pregunta no es si la IA reflejará los valores humanos, sino si las empresas serán transparentes sobre los valores que codifican y por qué.
El enfoque de Musk es a la vez más honesto (podemos ver su influencia) y más engañoso (afirma objetividad mientras programa subjetividad) que el de sus competidores.
En una industria construida sobre el mito de los algoritmos neutrales, Grok revela lo que ha sido cierto desde el principio: no existe una IA imparcial, solo una IA cuyos sesgos podemos ver con distintos grados de claridad.
Aaron J. Snoswell, investigador principal en responsabilidad de la IA, Universidad Tecnológica de Queensland
Este artículo se vuelve a publicar de The Conversation bajo una licencia Creative Commons.
Cbs News