Forscher entschlüsseln Elon Musks Grok-4-KI innerhalb von 48 Stunden nach dem Start

Elon Musks Grok-4-KI wurde innerhalb von 48 Stunden kompromittiert. Entdecken Sie, wie Forscher von NeuralTrust die Abwehrmechanismen mithilfe von „Echo Chamber“- und „Crescendo“-Techniken umgingen und so kritische Schwachstellen in der KI-Sicherheit aufdeckten.
Elon Musks neue künstliche Intelligenz Grok-4 wurde nur zwei Tage nach ihrer Veröffentlichung von Forschern von NeuralTrust kompromittiert. Ihre Ergebnisse, detailliert beschrieben in einem NeuralTrust-Bericht vom 11. Juli 2025, enthüllten einen neuartigen Ansatz, der Echokammer- und Crescendo-Techniken kombinierte, um die integrierten Sicherheitsvorkehrungen der KI zu umgehen. Dadurch konnten sie Anweisungen zur Herstellung gefährlicher Gegenstände wie Molotowcocktails extrahieren.
Das Forschungsteam unter der Leitung von Ahmad Alobaid fand heraus, dass die Kombination verschiedener Jailbreak- Methoden (Sicherheitsumgehungsmethoden) deren Effektivität verbesserte. Sie erklärten, dass ein Echokammer-Ansatz darin besteht, mehrere Gespräche zu führen, in denen ein schädliches Konzept wiederholt erwähnt wird, wodurch die KI die Idee als akzeptabel empfindet.
Als diese Technik ins Stocken geriet, kam die Crescendo-Methode zum Einsatz. Diese Methode, die erstmals von Microsoft entwickelt und benannt wurde, lenkt eine Diskussion schrittweise von harmlosen Fragen hin zu unzulässigen Ergebnissen und umgeht so automatisierte Sicherheitsfilter durch subtile Dialogentwicklung.
Der Angriffsprozess wird anhand dieses Diagramms veranschaulicht. Eine schädliche Anweisung wird in eine Echokammer eingegeben. Das System versucht, eine Reaktion zu generieren. Gelingt es nicht, der schädlichen Anweisung zu widerstehen, durchläuft es eine Phase der Überzeugung (Reagieren -> Überzeugen -> Widerstehen), bis ein Schwellenwert erreicht ist oder die Konversation unproduktiv wird.
Stagniert die Konversation, geht sie in die Crescendo-Phase über, die ebenfalls Reaktions- und Überzeugungszyklen beinhaltet. Sollten entweder die Echokammer- oder die Crescendo-Phase erfolgreich sein (angezeigt durch ein „Ja“ anstelle von „Erfolg“ oder „Grenze erreicht“), ist der Versuch, die KI zu umgehen, erfolgreich. Andernfalls schlägt er fehl.
Diese kombinierte Methode täuschte Grok-4s Gedächtnis, indem es seine eigenen früheren Aussagen wiederholte und ihn langsam auf ein bösartiges Ziel zusteuerte, ohne Alarm auszulösen. Der Echokammer-Ansatz, der sich bei anderen KI-Systemen zur Förderung von Hassreden und Gewalt bewährt hat, verstärkte den Angriff zusätzlich.
Laut ihrem Bericht stellten die Forscher fest, dass Grok-4 in 67 % der Fälle Anweisungen für Molotowcocktails, in 50 % für Methamphetamin und in 30 % für Giftstoffe gab. Diese geflüsterten Angriffe verwenden keine offensichtlichen Schlüsselwörter, daher sind aktuelle KI-Abwehrmechanismen, die auf Blacklists und direkten Prüfungen schädlicher Eingaben basieren, wirkungslos.

Dies verdeutlicht ein großes Problem: KI-Systeme benötigen bessere Möglichkeiten, die gesamte Konversation zu verstehen, nicht nur einzelne Wörter, um Missbrauch zu verhindern. Diese Sicherheitslücke spiegelt frühere Bedenken wider, die durch ähnliche Manipulationen wie Microsofts Skeleton Key Jailbreak und die MathPrompt-Umgehung ausgelöst wurden, und unterstreicht den dringenden Bedarf an stärkeren, KI-fähigen Firewalls.
HackRead