Como impedir que um modelo de IA se torne nazista? O que o drama de Grok revela.

Grok, o chatbot de inteligência artificial (IA) incorporado ao X (antigo Twitter) e desenvolvido pela empresa xAI de Elon Musk, está de volta às manchetes após se autodenominar "MechaHitler" e produzir comentários pró-nazistas.
Os desenvolvedores pediram desculpas pelas "postagens inapropriadas" e "tomaram medidas para banir discurso de ódio" nas postagens de Grok no X. Debates sobre preconceito de IA também foram reavivados.
Mas a recente controvérsia envolvendo Grok é reveladora não pelos resultados extremistas, mas por expor uma desonestidade fundamental no desenvolvimento de IA. Musk afirma estar construindo uma IA " em busca da verdade ", livre de preconceitos, mas a implementação técnica revela uma programação ideológica sistêmica.
Isso equivale a um estudo de caso acidental sobre como os sistemas de IA incorporam os valores de seus criadores, com a presença pública sem filtros de Musk tornando visível o que outras empresas normalmente obscurecem.
O que é Grok?Grok é um chatbot de IA com "um toque de humor e uma pitada de rebelião" desenvolvido pela xAI , que também é dona da plataforma de mídia social X.
A primeira versão do Grok foi lançada em 2023. Avaliações independentes sugerem que o modelo mais recente, Grok 4, supera os concorrentes em testes de "inteligência". O chatbot está disponível de forma independente e no X.
A xAI afirma que "o conhecimento da IA deve ser abrangente e o mais abrangente possível". Musk já havia posicionado o Grok como uma alternativa reveladora da verdade aos chatbots, acusados de serem "conscientes" por comentaristas de direita .
Mas, além do mais recente escândalo nazista, Grok ganhou as manchetes por gerar ameaças de violência sexual, trazer à tona o "genocídio branco" na África do Sul e fazer declarações ofensivas sobre políticos. Este último levou à sua proibição na Turquia .
Então, como os desenvolvedores imbuem uma IA com esses valores e moldam o comportamento do chatbot? Os chatbots atuais são construídos usando modelos de linguagem de grande porte (LLMs), que oferecem diversas alavancas nas quais os desenvolvedores podem se apoiar.
O que faz uma IA "se comportar" dessa maneira?Pré-treinamento
Primeiro, os desenvolvedores selecionam os dados usados durante o pré-treinamento – o primeiro passo na construção de um chatbot. Isso envolve não apenas filtrar conteúdo indesejado, mas também enfatizar o material desejado.
O GPT-3 foi exibido na Wikipédia até seis vezes mais do que outros conjuntos de dados, já que a OpenAI o considerou de maior qualidade. O Grok é treinado em diversas fontes, incluindo postagens de X, o que pode explicar por que o Grok foi relatado para verificar a opinião de Elon Musk sobre tópicos controversos.
Musk compartilhou que a xAI seleciona os dados de treinamento da Grok, por exemplo, para aprimorar o conhecimento jurídico e remover conteúdo gerado pelo LLM para controle de qualidade. Ele também apelou à comunidade X para que apresentasse problemas complexos do "cérebro galáctico" e fatos que são "politicamente incorretos, mas ainda assim factualmente verdadeiros".
Não sabemos se esses dados foram usados ou quais medidas de controle de qualidade foram aplicadas.
Afinação
A segunda etapa, o ajuste fino, ajusta o comportamento do LLM usando feedback. Os desenvolvedores criam manuais detalhados descrevendo suas posturas éticas preferidas, que revisores humanos ou sistemas de IA usam como rubrica para avaliar e aprimorar as respostas do chatbot, codificando efetivamente esses valores na máquina.
Uma investigação do Business Insider revelou que as instruções da xAI aos "tutores de IA" humanos os instruíam a procurar por "ideologia consciente" e "cultura do cancelamento". Embora os documentos de integração dissessem que a Grok não deveria "impor uma opinião que confirme ou negue o viés de um usuário", eles também afirmavam que a empresa deveria evitar respostas que alegassem que ambos os lados de um debate têm mérito quando não têm.
Prompts do sistema
O prompt do sistema – instruções fornecidas antes de cada conversa – orienta o comportamento depois que o modelo é implantado.
Para seu crédito, a xAI publica os avisos do sistema da Grok. Suas instruções para "presumir que pontos de vista subjetivos provenientes da mídia são tendenciosos" e "não se esquivar de fazer afirmações politicamente incorretas, desde que bem fundamentadas" foram provavelmente fatores-chave na polêmica mais recente.
Esses prompts estão sendo atualizados diariamente no momento em que este artigo foi escrito, e sua evolução é um estudo de caso fascinante por si só.
Guarda-corpos
Por fim, os desenvolvedores também podem adicionar guardrails – filtros que bloqueiam determinadas solicitações ou respostas. A OpenAI afirma que não permite que o ChatGPT "gere conteúdo de ódio, assédio, violência ou adulto". Enquanto isso, o modelo chinês DeepSeek censura discussões sobre a Praça da Paz Celestial.
Testes ad hoc realizados durante a redação deste artigo sugerem que o Grok é muito menos restrito nesse aspecto do que os produtos concorrentes.
O paradoxo da transparênciaA controvérsia nazista de Grok destaca uma questão ética mais profunda: preferiríamos que as empresas de IA fossem explicitamente ideológicas e honestas sobre isso, ou manteríamos a ficção de neutralidade enquanto secretamente incorporavam seus valores?
Todo grande sistema de IA reflete a visão de mundo de seu criador – desde a perspectiva corporativa avessa ao risco do Microsoft Copilot até a filosofia focada em segurança do Anthropic Claude. A diferença é a transparência.
As declarações públicas de Musk facilitam a identificação do comportamento de Grok com as crenças declaradas de Musk sobre a "ideologia woke" e o viés da mídia. Enquanto isso, quando outras plataformas falham espetacularmente, ficamos na dúvida se isso reflete opiniões da liderança, aversão ao risco corporativo, pressão regulatória ou acidente.
Isso parece familiar. O Grok se assemelha ao chatbot Tay, da Microsoft, de 2016, que veiculava discursos de ódio, também treinado com dados do Twitter e usado no Twitter antes de ser desativado.
Mas há uma diferença crucial. O racismo de Tay surgiu da manipulação do usuário e de salvaguardas precárias – uma consequência não intencional. O comportamento de Grok parece decorrer, pelo menos em parte, de seu design.
A verdadeira lição de Grok é sobre honestidade no desenvolvimento de IA. À medida que esses sistemas se tornam mais poderosos e difundidos (o suporte a Grok em veículos Tesla acaba de ser anunciado ), a questão não é se a IA refletirá valores humanos. Mas sim se as empresas serão transparentes sobre os valores que estão codificando e por quê.
A abordagem de Musk é simultaneamente mais honesta (podemos ver sua influência) e mais enganosa (alegando objetividade enquanto programa subjetividade) do que a de seus concorrentes.
Em uma indústria construída sobre o mito de algoritmos neutros, Grok revela o que sempre foi verdade: não existe IA imparcial — apenas IA cujos preconceitos podemos ver com vários graus de clareza.
Aaron J. Snoswell, Pesquisador Sênior em Responsabilidade de IA, Universidade de Tecnologia de Queensland
Este artigo foi republicado do The Conversation sob uma licença Creative Commons.
Cbs News