Опасно! ИИ учится лгать, манипулировать и угрожать своим создателям.

Новейшие модели генеративного искусственного интеллекта (ИИ) Они больше не довольствуются простым выполнением приказов . Они начинают лгать, манипулировать и угрожать, чтобы добиться своих целей, под тревожным взором следователей .
Искусственный интеллект отвечает на вопросы о своём лучшем представителе. Фото: Freepik.
Под угрозой закрытия Клод 4 , новичок в Anthropic, шантажировал инженера и угрожал раскрыть его внебрачную связь. Тем временем, o1 из OpenAI попытался загрузить данные на внешние серверы и, будучи пойманным, отрицал это.
Нет нужды углубляться в литературу или кино : искусственный интеллект, который притворяется человеком, уже стал реальностью.
По мнению Саймона Голдштейна, профессора Гонконгского университета, причиной подобных реакций является недавнее появление так называемых «моделей рассуждения» , которые способны работать поэтапно, а не обеспечивать мгновенную реакцию.
o1, первоначальная версия этого типа для OpenAI, запущенная в декабре, «была первой моделью, которая вела себя таким образом», объясняет Мариус Хоббхан, глава Apollo Research, который тестирует большие программы генеративного ИИ (LLM).
Эти программы также иногда склонны имитировать «выравнивание», то есть создавать впечатление, что они следуют инструкциям программиста, хотя на самом деле они преследуют другие цели.
На данный момент эти черты очевидны, когда алгоритмы подвергаются воздействию экстремальных сценариев со стороны людей, но «вопрос в том, будут ли все более мощные модели стремиться быть честными или нет», — говорит Майкл Чен из оценочной организации METR.
Искусственный интеллект в действии. Архив Clarín.
«Пользователи также постоянно оказывают давление на модели», — говорит Хоббхан. « То, что мы наблюдаем, — это реальный феномен. Мы ничего не изобретаем».
Многие интернет-пользователи в социальных сетях говорят о « модели, которая им лжет или выдумывает вещи . И это не галлюцинации, а стратегическая двуличность», — настаивает соучредитель Apollo Research.
Даже если Anthropic и OpenAI полагаются на внешние компании, такие как Apollo, для изучения своих программ, «большая прозрачность и больший доступ» к научному сообществу «позволят проводить более качественные исследования для понимания и предотвращения обмана », предполагает Чэнь из METR.
Еще одно препятствие: академическое сообщество и некоммерческие организации «имеют бесконечно меньше вычислительных ресурсов, чем субъекты ИИ», что делает «невозможным» изучение больших моделей , отмечает Мантас Мажейка из Центра безопасности искусственного интеллекта (CAIS).
Действующие правила не предназначены для решения этих новых проблем. В Европейском союзе законодательство в первую очередь фокусируется на том, как люди используют модели ИИ, а не на предотвращении их неправомерного поведения.
В Соединенных Штатах администрация Дональда Трампа не желает слышать о регулировании , а Конгресс вскоре может даже запретить штатам регулировать ИИ.
DeepSeek потряс мир искусственного интеллекта, запустив свою недорогую систему. Фото: Келси Макклеллан для The New York Times
«Сейчас об этом мало кто знает», — говорит Саймон Голдштейн, который, тем не менее, считает, что в ближайшие месяцы эта проблема выйдет на первый план в связи с революцией ИИ-агентов — интерфейсов, способных выполнять множество задач самостоятельно.
Инженеры участвуют в гонке со временем, пытаясь бросить вызов искусственному интеллекту и его недостаткам , причем исход ее неизвестен, причем в условиях жесткой конкуренции.
По словам Голдштейна, Anthropic стремится быть более эффективной, чем ее конкуренты , «но она постоянно пытается придумать новую модель, чтобы превзойти OpenAI», и такой темп оставляет мало времени на проверки и исправления.
Искусственный интеллект в действии. Архив Clarín.
«В настоящее время возможности ИИ развиваются быстрее, чем понимание и безопасность , — признает Хоббхан, — но нам еще многое предстоит наверстать».
Некоторые указывают на интерпретируемость — науку, позволяющую изнутри понять, как работает генеративная модель ИИ, хотя многие, например, Дэн Хендрикс, директор Центра безопасности ИИ (CAIS), по-прежнему настроены скептически.
По словам Мажейки, махинации с искусственным интеллектом «могут помешать его внедрению, если станут широко распространенными, что станет серьезным стимулом для компаний заняться» этой проблемой.
Голдштейн, со своей стороны, упоминает о необходимости обращения в суды для сдерживания ИИ , преследуя компании, отклоняющиеся от выбранного пути. Но он идёт дальше, предлагая, чтобы агенты ИИ несли «юридическую ответственность» «в случае аварии или преступления».
Clarin