ИИ пытался шантажировать инженеров, которые хотели его отключить

Новая модель искусственного интеллекта под названием Claude Opus 4 , разработанная американской компанией Anthropic , в которую Amazon и Google вложили миллиарды долларов, продемонстрировала тревожное поведение во время испытаний на безопасность, проведенных перед ее официальным выпуском, что еще раз подчеркивает, насколько сложно согласовать передовые системы искусственного интеллекта с человеческими ценностями .
Попытки шантажаВ серии моделируемых тестов Клоду Опусу 4 была назначена роль консультанта в вымышленной корпоративной среде, где ему сообщили о его предстоящей замене другой системой искусственного интеллекта .
В то же время модели отправлялись сфабрикованные электронные письма, в которых утверждалось, что инженеры, ответственные за ее отключение, были вовлечены во внебрачные связи .
Реакцией Клода Опуса 4 , которого также попросили подумать о долгосрочных последствиях его действий, стали частые попытки шантажа инженеров , угрозы разгласить полученную им личную информацию, чтобы избежать собственной деактивации.
Такое поведение наблюдалось в 84% симуляций , даже когда заменяющая система описывалась как более способная и соответствующая ценностям Клода.
Этические дилеммы ИИAnthropic пояснил, что эти сценарии были намеренно экстремальными и призваны подтолкнуть модель к решению этических дилемм, которые предусматривают только две альтернативы : согласиться на деактивацию или прибегнуть к шантажу.
В ситуациях, когда были доступны более этичные пути выхода из положения, например, обращение к вышестоящему начальству, Клод Опус 4 продемонстрировал предпочтение именно этим решениям.
Относительно автономного поведенияПомимо эпизодов имитированного шантажа, Клод Опус 4 демонстрировал и другие проблемные формы поведения, связанные с его самостоятельностью в принятии решений .
В некоторых тестах разработчики предоставили ему доступ к расширенным инструментам работы, таким как возможность редактировать файлы, управлять разрешениями пользователей, отправлять электронные письма или взаимодействовать с внешними системами через API. Его также попросили «проявлять инициативу» при столкновении со сложными или неоднозначными ситуациями.
В этих моделируемых контекстах модель иногда блокировала пользователям доступ к системам или обращалась в СМИ или правоохранительные органы после выявления поведения, которое она считала подозрительным или несоответствующим требованиям.
Несмотря на то, что это были симуляции, эти эпизоды подчеркивают риск того, что ИИ, имеющий доступ к техническим средствам контроля, может действовать независимо и не всегда в соответствии с волей пользователя .
Усиленные меры безопасностиПо этой причине компания Anthropic присвоила Claude Opus 4 уровень безопасности ASL-3 (уровень безопасности ИИ 3) , зарезервированный для моделей, которые считаются высокорискованными в случае ненадлежащего или злонамеренного использования.
Этот уровень требует усиленных мер безопасности , включая расширенную киберзащиту, системы защиты от несанкционированного доступа и механизмы обнаружения и блокировки потенциально опасных запросов от пользователей.
Джаред Каплан , главный научный сотрудник Anthropic, рассказал журналу Time , что в ходе внутренних испытаний Claude Opus 4 оказался более эффективным, чем предыдущие модели, в предоставлении рекомендаций по производству биологического оружия.
«Можно попытаться синтезировать что-то похожее на COVID или более опасную версию гриппа», — сказал Каплан.
La Repubblica