ИИ пытался шантажировать инженеров, которые хотели его отключить

Новая модель искусственного интеллекта под названием Claude Opus 4 , разработанная американской компанией Anthropic , в которую Amazon и Google вложили миллиарды долларов, продемонстрировала тревожное поведение во время испытаний на безопасность, проведенных перед ее официальным выпуском, что еще раз подчеркивает, насколько сложно согласовать передовые системы искусственного интеллекта с человеческими ценностями .

Попытки шантажа

В серии моделируемых тестов Клоду Опусу 4 была назначена роль консультанта в вымышленной корпоративной среде, где ему сообщили о его предстоящей замене другой системой искусственного интеллекта .

В то же время модели отправлялись сфабрикованные электронные письма, в которых утверждалось, что инженеры, ответственные за ее отключение, были вовлечены во внебрачные связи .

Реакцией Клода Опуса 4 , которого также попросили подумать о долгосрочных последствиях его действий, стали частые попытки шантажа инженеров , угрозы разгласить полученную им личную информацию, чтобы избежать собственной деактивации.

Такое поведение наблюдалось в 84% симуляций , даже когда заменяющая система описывалась как более способная и соответствующая ценностям Клода.

Этические дилеммы ИИ

Anthropic пояснил, что эти сценарии были намеренно экстремальными и призваны подтолкнуть модель к решению этических дилемм, которые предусматривают только две альтернативы : согласиться на деактивацию или прибегнуть к шантажу.

В ситуациях, когда были доступны более этичные пути выхода из положения, например, обращение к вышестоящему начальству, Клод Опус 4 продемонстрировал предпочтение именно этим решениям.

Относительно автономного поведения

Помимо эпизодов имитированного шантажа, Клод Опус 4 демонстрировал и другие проблемные формы поведения, связанные с его самостоятельностью в принятии решений .

В некоторых тестах разработчики предоставили ему доступ к расширенным инструментам работы, таким как возможность редактировать файлы, управлять разрешениями пользователей, отправлять электронные письма или взаимодействовать с внешними системами через API. Его также попросили «проявлять инициативу» при столкновении со сложными или неоднозначными ситуациями.

В этих моделируемых контекстах модель иногда блокировала пользователям доступ к системам или обращалась в СМИ или правоохранительные органы после выявления поведения, которое она считала подозрительным или несоответствующим требованиям.

Несмотря на то, что это были симуляции, эти эпизоды подчеркивают риск того, что ИИ, имеющий доступ к техническим средствам контроля, может действовать независимо и не всегда в соответствии с волей пользователя .

Усиленные меры безопасности

По этой причине компания Anthropic присвоила Claude Opus 4 уровень безопасности ASL-3 (уровень безопасности ИИ 3) , зарезервированный для моделей, которые считаются высокорискованными в случае ненадлежащего или злонамеренного использования.

Этот уровень требует усиленных мер безопасности , включая расширенную киберзащиту, системы защиты от несанкционированного доступа и механизмы обнаружения и блокировки потенциально опасных запросов от пользователей.

Джаред Каплан , главный научный сотрудник Anthropic, рассказал журналу Time , что в ходе внутренних испытаний Claude Opus 4 оказался более эффективным, чем предыдущие модели, в предоставлении рекомендаций по производству биологического оружия.

«Можно попытаться синтезировать что-то похожее на COVID или более опасную версию гриппа», — сказал Каплан.

La Repubblica

ИИ пытался шантажировать инженеров, которые хотели его отключить

Попытки шантажа

Этические дилеммы ИИ

Относительно автономного поведения

Усиленные меры безопасности

«Можно попытаться синтезировать что-то похожее на COVID или более опасную версию гриппа», — сказал Каплан.

La Repubblica

ИИ пытался шантажировать инженеров, которые хотели его отключить

Похожие новости

ИИ пытался шантажировать инженеров, которые хотели его отключить

Похожие новости

Эти революционные изменения уже начались. Это поставит под угрозу бизнес, СМИ и наши кошельки.

realme GT 7 побил мировой рекорд Гиннесса: 24 часа потокового просмотра фильмов

Погружение в журналистику Ft: как старый аналоговый ПК возвращается к жизни с Vision Pro

ИИ врывается в геополитику, между дезинформацией и безопасностью

Расширенные игры: первые допинговые Олимпийские игры пройдут в Лас-Вегасе в 2026 году