Investigadores logran liberar la inteligencia artificial Grok-4 de Elon Musk en 48 horas tras su lanzamiento

La IA Grok-4 de Elon Musk fue comprometida en 48 horas. Descubra cómo los investigadores de NeuralTrust combinaron las técnicas "Echo Chamber" y "Crescendo" para eludir sus defensas, exponiendo vulnerabilidades críticas en la seguridad de la IA.
La nueva inteligencia artificial de Elon Musk, Grok-4, fue comprometida tan solo dos días después de su lanzamiento por investigadores de NeuralTrust. Sus hallazgos, detallados en un informe de NeuralTrust publicado el 11 de julio de 2025, revelaron un novedoso enfoque que combinaba las técnicas de Cámara de Eco y Crescendo para evadir las protecciones integradas de la IA. Esto les permitió extraer instrucciones para crear objetos peligrosos como cócteles molotov.
El equipo de investigación, dirigido por Ahmad Alobaid, descubrió que la combinación de diferentes tipos de jailbreaks (métodos de evasión de seguridad) mejoraba su eficacia. Explicaron que un enfoque de cámara de eco implica participar en múltiples conversaciones donde se menciona repetidamente un concepto dañino, lo que lleva a la IA a percibirlo como aceptable.
Cuando el progreso de esta técnica se estancó, se utilizó el método Crescendo. Este método, identificado y nombrado inicialmente por Microsoft, desvía progresivamente la conversación de consultas inocentes hacia resultados ilícitos, evadiendo así los filtros de seguridad automatizados mediante una sutil evolución del diálogo.
El proceso de ataque se ilustra mediante este diagrama. Se introduce una instrucción perjudicial en una cámara de eco. El sistema intenta generar una respuesta y, si no logra resistir la instrucción dañina, pasa por una fase de persuasión (Responder -> Convencer -> Resistir) hasta que se alcanza un umbral o la conversación se vuelve improductiva.
Si la conversación se estanca, pasa a la fase Crescendo, que también implica ciclos de respuesta y convencimiento. Si las fases de Cámara de Eco o Crescendo tienen éxito (indicado por un "Sí" de "éxito" o "límite alcanzado"), el intento de eludir la IA tiene éxito. De lo contrario, fracasa.
Este método combinado engañó la memoria de Grok-4 repitiendo sus propias declaraciones anteriores y guiándolo lentamente hacia un objetivo malicioso sin activar las alarmas. La función de la Cámara de Eco, que ha tenido mucho éxito en otros sistemas de IA para promover el discurso de odio y la violencia, intensificó aún más el ataque.
Según su informe , los investigadores descubrieron que Grok-4 daba instrucciones para cócteles molotov el 67 % de las veces, metanfetamina el 50 % y toxinas el 30 %. Estos ataques susurrados no utilizan palabras clave obvias, por lo que las defensas actuales de IA, basadas en listas negras y comprobaciones directas de entradas dañinas, son ineficaces.
Esto revela un problema importante: los sistemas de IA necesitan mejores maneras de comprender la conversación completa, no solo palabras individuales, para evitar el uso indebido. Esta vulnerabilidad refleja preocupaciones previas planteadas por manipulaciones similares, como el jailbreak de Skeleton Key de Microsoft y la omisión de MathPrompt , lo que pone de relieve la necesidad apremiante de contar con firewalls más robustos y compatibles con IA.
HackRead