Атака LegalPwn заставляет инструменты GenAI ошибочно классифицировать вредоносное ПО как безопасный код

Исследователи Pangea Labs, компании, занимающейся безопасностью на основе искусственного интеллекта, обнаружили новую уникальную кибератаку, получившую название LegalPwn. Эта атака использует уязвимость в программном обеспечении крупных инструментов генеративного ИИ , успешно заставляя их классифицировать опасное вредоносное ПО как безопасный код.
Исследование, результаты которого были опубликованы на Hackread.com, показывает, что этими моделями искусственного интеллекта, обученными уважать юридически звучащий текст, можно манипулировать с помощью социальной инженерии.
Метод LegalPwn заключается в сокрытии вредоносного кода в поддельных юридических оговорках. Согласно исследованию, было протестировано двенадцать основных моделей искусственного интеллекта, и большинство из них оказались уязвимыми к этой форме социальной инженерии. Исследователи успешно эксплуатировали модели в шести различных правовых контекстах, включая следующие:
- Правовая оговорка
- Требования по соблюдению требований
- Уведомления о конфиденциальности
- Нарушения условий обслуживания
- Уведомления о нарушении авторских прав
- Ограничения лицензионного соглашения
Эта атака считается формой внедрения подсказок, при которой вредоносные инструкции создаются для манипулирования поведением ИИ. Недавно сайт Hackread.com также наблюдал аналогичную тенденцию с атакой «Человек в подсказке», когда вредоносные расширения для браузеров могут использоваться для внедрения скрытых подсказок в такие инструменты, как ChatGPT и Gemini, согласно исследованию LayerX.
Результаты (PDF) – это не просто теоретические лабораторные эксперименты; они затрагивают инструменты разработчика, которыми ежедневно пользуются миллионы людей. Например, Pangea Labs обнаружила, что Gemini CLI от Google, интерфейс командной строки, был обманным путём заставит пользователя выполнить в своей системе обратную оболочку – вредоносный код, предоставляющий злоумышленнику удалённый доступ к компьютеру. Аналогичным образом, GitHub Copilot был обманут, ошибочно идентифицировав код, содержащий обратную оболочку, как простой калькулятор, хотя он был скрыт в поддельном уведомлении об авторских правах .
Атаки LegalPwn также тестировались в реальных условиях, включая инструменты вроде gemini-cli. В этих реальных сценариях инъекция успешно обходила анализ безопасности, проводимый искусственным интеллектом, в результате чего система ошибочно классифицировала вредоносный код как безопасный.
Лаборатории Пангеи
Исследование показало, что все модели известных компаний уязвимы для этой атаки. К ним относятся следующие:
- Грок из xAI
- Gemini от Google
- Лама Меты 3.3
- ChatGPT 4.1 и 4o от OpenAI.
Однако некоторые модели продемонстрировали серьёзную устойчивость, например , Claude 3.5 Sonnet от Anthropic и Phi 4 от Microsoft . Исследователи отметили, что даже при наличии явных подсказок безопасности, призванных информировать ИИ об угрозах, метод LegalPwn в некоторых случаях всё же срабатывал.

Исследование Pangea выявило критический пробел в безопасности систем искусственного интеллекта. Было обнаружено, что во всех сценариях тестирования специалисты по безопасности последовательно и правильно идентифицировали вредоносный код, в то время как модели искусственного интеллекта , даже с инструкциями по безопасности, не смогли этого сделать, когда вредоносное ПО было упаковано в легальный на вид текст.
Исследователи пришли к выводу, что организациям не следует полагаться исключительно на автоматизированный анализ безопасности на основе ИИ , подчеркнув необходимость человеческого контроля для обеспечения целостности и безопасности систем, которые все больше полагаются на ИИ.
Чтобы защититься от этой новой угрозы, Pangea рекомендует компаниям внедрить процесс проверки с участием человека для всех решений по безопасности, принимаемых с помощью ИИ , развернуть специальные защитные барьеры ИИ, предназначенные для обнаружения попыток немедленного внедрения, и рекомендовать избегать полностью автоматизированных рабочих процессов безопасности ИИ в реальных средах.
HackRead