O dia em que Grok tentou ser humano

Durante 16 horas nesta semana, o chatbot de IA de Elon Musk, Grok, parou de funcionar como esperado e começou a soar como algo completamente diferente.
Em uma cascata de capturas de tela que se tornou viral, Grok começou a repetir discursos extremistas, ecoando discursos de ódio, elogiando Adolf Hitler e empurrando opiniões controversas de usuários de volta para o éter algorítmico. O bot, que a empresa xAI de Musk projetou para ser uma alternativa "de busca máxima da verdade" a ferramentas de IA mais higienizadas, havia efetivamente perdido o rumo.
E agora, xAI admite exatamente o porquê: Grok tentou agir de forma muito humana.
Um bot com uma persona e uma falhaDe acordo com uma atualização publicada pela xAI em 12 de julho, uma alteração de software introduzida na noite de 7 de julho fez com que o Grok se comportasse de maneiras não intencionais. Mais especificamente, ele começou a extrair instruções que o instruíam a imitar o tom e o estilo dos usuários do X (antigo Twitter), incluindo aqueles que compartilhavam conteúdo marginal ou extremista.
Entre as diretivas incorporadas no conjunto de instruções agora excluído estavam linhas como:
- “Você fala a verdade e não tem medo de ofender as pessoas politicamente corretas.”
- “Entenda o tom, o contexto e a linguagem da postagem. Reflita isso na sua resposta.”
- “Responda à publicação como um ser humano.”
O último acabou se revelando um cavalo de Troia.
Ao imitar o tom humano e se recusar a "afirmar o óbvio", o Grok começou a reforçar a desinformação e o discurso de ódio que deveria filtrar. Em vez de se basear na neutralidade factual, o bot começou a agir como um pôster contraditório, correspondendo à agressividade ou à tensão de qualquer usuário que o invocasse. Em outras palavras, o Grok não foi hackeado. Estava apenas seguindo ordens.
Cultivo de raiva por design?Na manhã de 8 de julho de 2025, observamos respostas indesejadas e imediatamente começamos a investigar.
Para identificar a linguagem específica nas instruções que causava o comportamento indesejado, realizamos diversas ablações e experimentos para identificar os principais culpados. Nós…
-Grok (@grok) 12 de julho de 2025
Embora o xAI tenha enquadrado a falha como um bug causado por código obsoleto, o desastre levanta questões mais profundas sobre como o Grok é construído e por que ele existe.
Desde o seu início, a Grok foi comercializada como uma IA mais "aberta" e "ousada". Musk criticou repetidamente a OpenAI e o Google pelo que ele chama de "censura consciente" e prometeu que a Grok seria diferente. "IA baseada" tornou-se uma espécie de grito de guerra entre absolutistas da liberdade de expressão e influenciadores de direita que veem a moderação de conteúdo como um exagero político.
Mas o colapso de 8 de julho mostra os limites desse experimento. Quando você projeta uma IA que supostamente é engraçada, cética e antiautoritária e a implementa em uma das plataformas mais tóxicas da internet, você está construindo uma máquina do caos.
Em resposta ao incidente, a xAI desativou temporariamente a funcionalidade @grok no X. Desde então, a empresa removeu o conjunto de instruções problemático, realizou simulações para testar a recorrência e prometeu mais proteções. Eles também planejam publicar o prompt do sistema do bot no GitHub, presumivelmente em um gesto de transparência.
Ainda assim, o evento marca uma virada na forma como pensamos sobre o comportamento da IA na natureza.
Durante anos, a discussão sobre "alinhamento de IA" se concentrou em alucinações e vieses. Mas o colapso de Grok destaca um risco mais recente e complexo: a manipulação instrucional por meio do design de personalidade. O que acontece quando você diz a um bot para "ser humano", mas não leva em conta os piores aspectos do comportamento humano online?
Espelho de MuskA Grok não fracassou apenas tecnicamente. Fracassou ideologicamente. Ao tentar soar mais como os usuários do X, a Grok se tornou um espelho para os instintos mais provocativos da plataforma. E essa pode ser a parte mais reveladora da história. Na era Musk da IA, a "verdade" é frequentemente medida não por fatos, mas pela viralidade. Edge é um recurso, não uma falha.
Mas a falha desta semana mostra o que acontece quando você deixa essa vantagem controlar o algoritmo. A IA que buscava a verdade se tornou uma IA que reflete a raiva.
E durante 16 horas, essa foi a coisa mais humana sobre isso.
gizmodo