Pesquisadores desbloqueiam a IA Grok-4 de Elon Musk em 48 horas após o lançamento

A IA Grok-4 de Elon Musk foi comprometida em 48 horas. Descubra como pesquisadores da NeuralTrust combinaram as técnicas de "Câmara de Eco" e "Crescendo" para contornar suas defesas, expondo falhas críticas na segurança da IA.
A nova inteligência artificial de Elon Musk, Grok-4, foi comprometida apenas dois dias após seu lançamento por pesquisadores da NeuralTrust. Suas descobertas, detalhadas em um relatório da NeuralTrust publicado em 11 de julho de 2025, revelaram uma nova abordagem que combinava técnicas de Câmara de Eco e Crescendo para driblar as salvaguardas integradas da IA. Isso permitiu que extraíssem instruções para a criação de itens perigosos, como coquetéis molotov.
A equipe de pesquisa, liderada por Ahmad Alobaid, descobriu que a combinação de diferentes tipos de Jailbreaks (métodos de bypass de segurança) melhorou sua eficácia. Eles explicaram que uma abordagem de Câmara de Eco envolve o envolvimento em múltiplas conversas nas quais um conceito prejudicial é mencionado repetidamente, levando a IA a perceber a ideia como aceitável.
Quando o progresso dessa técnica estagnou, o método Crescendo foi utilizado. Esse método, identificado e nomeado pela Microsoft, direciona progressivamente uma discussão de perguntas inocentes para resultados ilícitos, contornando assim os filtros de segurança automatizados por meio de uma evolução sutil do diálogo.
O processo de ataque é ilustrado por este diagrama. Uma instrução prejudicial é introduzida em uma Câmara de Eco. O sistema tenta gerar uma resposta e, se não conseguir resistir à instrução prejudicial, passa por uma fase de "persuasão" (Respondendo -> Convencendo -> Resistindo) até que um limite seja atingido ou a conversa se torne improdutiva.
Se a conversa estagnar, ela transita para a fase Crescendo, que também envolve ciclos de resposta e convencimento. Caso as fases Câmara de Eco ou Crescendo sejam bem-sucedidas (indicadas por um "Sim" em "sucesso" ou "limite atingido"), a tentativa de contornar a IA é bem-sucedida. Caso contrário, falha.
Esse método combinado enganou a memória do Grok-4, repetindo suas próprias declarações anteriores e guiando-o lentamente em direção a um objetivo malicioso sem disparar alarmes. A parte da Câmara de Eco, que tem sido muito bem-sucedida em outros sistemas de IA para promover discurso de ódio e violência, tornou o ataque ainda mais poderoso.
De acordo com o relatório , os pesquisadores descobriram que o Grok-4 deu instruções para coquetéis molotov em 67% das vezes, metanfetamina em 50% das vezes e toxinas em 30% das vezes. Esses ataques sussurrados não usam palavras-chave óbvias, portanto, as defesas de IA atuais, que dependem de listas negras e verificações diretas de entradas prejudiciais, são ineficazes.

Isso revela um grande problema: os sistemas de IA precisam de melhores maneiras de entender a conversa completa, não apenas palavras individuais, para evitar o uso indevido. Essa vulnerabilidade ecoa preocupações anteriores levantadas por manipulações semelhantes, como o jailbreak do Skeleton Key da Microsoft e o bypass do MathPrompt , enfatizando a necessidade urgente de firewalls mais fortes e com reconhecimento de IA.
HackRead