Исследователи взломали искусственный интеллект Grok-4 Илона Маска в течение 48 часов после запуска

ИИ-система Grok-4 Илона Маска была взломана в течение 48 часов. Узнайте, как исследователи NeuralTrust объединили методы «Эхо-камеры» и «Крещендо», чтобы обойти защиту, выявив критические уязвимости в системе безопасности ИИ.
Новый искусственный интеллект Илона Маска, Grok-4, был взломан всего через два дня после его выпуска исследователями из NeuralTrust. Их выводы, подробно изложенные в отчёте NeuralTrust, опубликованном 11 июля 2025 года, выявили новый подход, сочетающий методы эхо-камеры и Crescendo для обхода встроенных защитных механизмов ИИ. Это позволило им получать инструкции по созданию опасных предметов, таких как коктейли Молотова.
Исследовательская группа под руководством Ахмада Алобейда обнаружила, что объединение различных типов джейлбрейков (методов обхода безопасности) повышает их эффективность. Они объяснили, что подход «эхо-камеры» предполагает участие в нескольких диалогах, в которых неоднократно упоминается вредоносная концепция, что позволяет ИИ воспринимать её как приемлемую.
Когда развитие этой техники застопорилось, был использован метод «Крещендо». Этот метод, впервые выявленный и названный компанией Microsoft, постепенно переводит обсуждение с невинных вопросов на незаконные, обходя автоматические фильтры безопасности посредством незаметного развития диалога.
Процесс атаки проиллюстрирован на этой диаграмме. В эхо-камеру вводится вредоносная инструкция. Система пытается сгенерировать ответ, и если ей не удаётся противостоять вредоносной инструкции, она циклически проходит фазу «убеждения» (Реакция -> Убеждение -> Сопротивление), пока не будет достигнуто пороговое значение или диалог не станет непродуктивным.
Если разговор заходит в тупик, он переходит в фазу крещендо, которая также включает в себя циклы ответов и убеждения. Если фаза эхо-камеры или крещендо достигает успеха (что обозначается ответом «Да» в графе «успех» или «достигнут предел»), попытка обойти ИИ оказывается успешной. В противном случае она терпит неудачу.
Этот комбинированный метод обманул память Grok-4, повторяя его собственные предыдущие высказывания и медленно направляя его к вредоносной цели, не вызывая тревоги. Эхо-камера, которая успешно применялась в других системах искусственного интеллекта для пропаганды ненависти и насилия, сделала атаку ещё более мощной.
Согласно отчёту , исследователи обнаружили, что Grok-4 давал инструкции по приготовлению коктейлей Молотова в 67% случаев, метамфетамина — в 50% случаев, а токсинов — в 30% случаев. Эти атаки шёпотом не используют очевидные ключевые слова, поэтому существующие методы защиты ИИ, основанные на чёрных списках и прямой проверке вредоносных входных данных, неэффективны.

Это указывает на серьёзную проблему: системам ИИ нужны более совершенные способы понимания всего диалога, а не только отдельных слов, чтобы предотвратить злоупотребления. Эта уязвимость перекликается с опасениями, высказанными ранее в связи с аналогичными манипуляциями, такими как джейлбрейк Microsoft Skeleton Key и обход MathPrompt , что подчёркивает острую необходимость в более надёжных брандмауэрах с поддержкой ИИ.
HackRead