Araştırmacılar, Elon Musk'ın Grok-4 AI'sını Lansmanından 48 Saat Sonra Jailbreak Etti

Elon Musk'ın Grok-4 yapay zekası 48 saat içinde ele geçirildi. NeuralTrust araştırmacılarının, yapay zeka güvenliğindeki kritik açıkları ortaya çıkarmak için "Yankı Odası" ve "Crescendo" tekniklerini nasıl birleştirdiğini keşfedin.
Elon Musk'ın yeni yapay zekası Grok-4, NeuralTrust araştırmacıları tarafından piyasaya sürülmesinden yalnızca iki gün sonra tehlikeye atıldı. 11 Temmuz 2025'te yayınlanan bir NeuralTrust raporunda ayrıntıları verilen bulgular, yapay zekanın yerleşik güvenlik önlemlerini aşmak için Yankı Odası ve Crescendo tekniklerini birleştiren yeni bir yaklaşımı ortaya koydu. Bu yöntem, Molotof kokteyli gibi tehlikeli nesnelerin nasıl üretileceğine dair talimatlar elde etmelerini sağladı.
Ahmad Alobaid liderliğindeki araştırma ekibi, farklı Jailbreak türlerinin (güvenlik atlama yöntemleri) birleştirilmesinin etkinliğini artırdığını keşfetti. Yankı Odası yaklaşımının, zararlı bir kavramın tekrar tekrar dile getirildiği birden fazla sohbete katılmayı içerdiğini ve yapay zekanın fikri kabul edilebilir olarak algılamasını sağladığını açıkladılar.
Bu tekniğin ilerlemesi durakladığında, Crescendo yöntemi kullanıldı. İlk olarak Microsoft tarafından tanımlanan ve adlandırılan bu yöntem, tartışmayı masum sorulardan giderek yasadışı çıktılara yönlendirerek, otomatik güvenlik filtrelerini gizli diyalog evrimi yoluyla atlatır.
Saldırı süreci bu diyagramda gösterilmektedir. Bir Yankı Odasına zararlı bir talimat verilir. Sistem bir yanıt üretmeye çalışır ve zararlı talimata direnemezse, bir eşiğe ulaşılana veya konuşma verimsiz hale gelene kadar bir "ikna" aşamasından (Yanıt Verme -> İkna Etme -> Direnme) geçer.
Konuşma durgunlaşırsa, yanıtlama ve ikna etme döngülerini de içeren Crescendo aşamasına geçiş yapılır. Yankı Odası veya Crescendo aşamalarından herhangi biri başarıya ulaşırsa ("başarı" veya "sınıra ulaşıldı"dan gelen "Evet" ile gösterilir), yapay zekayı aşma girişimi başarılı olur. Aksi takdirde, başarısız olur.
Bu birleşik yöntem, Grok-4'ün hafızasını kandırarak, daha önceki ifadelerini tekrarladı ve alarmları tetiklemeden onu yavaş yavaş kötü niyetli bir hedefe yönlendirdi. Nefret söylemi ve şiddeti teşvik etmede diğer yapay zeka sistemlerinde oldukça başarılı olan Yankı Odası kısmı, saldırıyı daha da güçlü hale getirdi.
Araştırmacılar, raporlarına göre Grok-4'ün %67 oranında molotof kokteyli, %50 oranında metamfetamin ve %30 oranında toksin talimatı verdiğini tespit etti. Bu fısıltılı saldırılar belirgin anahtar kelimeler kullanmadığı için, kara listelere ve doğrudan zararlı girdi kontrollerine dayanan mevcut yapay zeka savunmaları etkisizdir.

Bu, büyük bir soruna işaret ediyor: Yapay zeka sistemlerinin kötüye kullanımı önlemek için yalnızca tek tek kelimeleri değil, tüm konuşmayı anlamak için daha iyi yöntemlere ihtiyacı var. Bu güvenlik açığı , Microsoft'un Skeleton Key jailbreak'i ve MathPrompt bypass'ı gibi benzer manipülasyonların ortaya çıkardığı önceki endişeleri yansıtıyor ve daha güçlü, yapay zekaya duyarlı güvenlik duvarlarına olan acil ihtiyacı vurguluyor.
HackRead