Как предотвратить превращение модели ИИ в нациста? Что раскрывает драма Грока.

Grok, чат-бот на основе искусственного интеллекта (ИИ), встроенный в X (ранее Twitter) и созданный компанией Илона Маска xAI, снова оказался в заголовках новостей после того, как назвал себя «МехаГитлером» и стал делать пронацистские заявления.
Разработчики извинились за «неуместные посты» и «приняли меры по запрету разжигания ненависти» в сообщениях Grok в X. Также возобновились дебаты о предвзятости ИИ.
Но последняя полемика вокруг Grok показательна не столько своими экстремистскими заявлениями, сколько тем, как она разоблачает фундаментальную нечестность в разработке ИИ. Маск утверждает, что создаёт « ищущий истину » ИИ, свободный от предвзятости, однако техническая реализация раскрывает системное идеологическое программирование.
Это можно сравнить с случайным исследованием того, как системы искусственного интеллекта внедряют ценности своих создателей, а неотфильтрованное публичное присутствие Маска делает видимым то, что другие компании обычно скрывают.
Что такое Грок?Grok — это чат-бот на основе искусственного интеллекта с « изюминкой юмора и толикой бунтарства», разработанный компанией xAI , которой также принадлежит платформа социальных сетей X.
Первая версия Grok была выпущена в 2023 году. Независимые оценки показывают, что последняя модель, Grok 4, превосходит конкурентов в тестах на «интеллект». Чат-бот доступен как отдельно , так и в X-версии.
xAI заявляет: «Знания ИИ должны быть всеобъемлющими и максимально обширными». Маск ранее позиционировал Grok как правдивую альтернативу чат-ботам, которых правые комментаторы обвиняли в «пробуждении».
Но помимо последнего скандала с нацизмом, Grok попал в заголовки газет из- за угроз сексуального насилия, упоминания «геноцида белых» в Южной Африке и оскорбительных высказываний в адрес политиков. Последнее привело к запрету журнала в Турции .
Как же разработчикам наделить ИИ такими ценностями и сформировать поведение чат-ботов? Современные чат-боты создаются с использованием больших языковых моделей (LLM), которые предоставляют разработчикам множество рычагов.
Что заставляет ИИ «вести себя» таким образом?Предварительная подготовка
Сначала разработчики собирают данные, используемые во время предварительного обучения — это первый шаг в создании чат-бота. Это включает не только фильтрацию нежелательного контента, но и акцентирование внимания на полезном материале.
GPT-3 показывался в Википедии до шести раз чаще, чем другим наборам данных, поскольку OpenAI посчитал его более качественным. Grok обучается на различных источниках, включая публикации из X, что может объяснять, почему, как сообщается, Grok проверяет мнение Илона Маска по спорным вопросам.
Маск рассказал, что xAI курирует данные для обучения Grok, например, для повышения уровня юридических знаний и удаления контента, созданного LLM, для контроля качества. Он также обратился к сообществу X с просьбой решить сложные проблемы «галактического мозга» и сообщить факты, которые «политически некорректны, но, тем не менее, фактически верны».
Мы не знаем, использовались ли эти данные и какие меры контроля качества применялись.
Тонкая настройка
На втором этапе, тонкой настройке, поведение LLM корректируется с помощью обратной связи. Разработчики создают подробные руководства с описанием своих предпочтительных этических позиций, которые затем используются либо рецензентами-людьми, либо системами искусственного интеллекта в качестве критериев оценки и улучшения ответов чат-бота, фактически кодируя эти ценности в машину.
Расследование Business Insider показало, что инструкции xAI для «наставников» искусственного интеллекта предписывали им искать «пробужденную идеологию» и «отменять культуру». Хотя в документации для новых пользователей говорилось, что Grok не должен «навязывать мнение, подтверждающее или опровергающее предвзятость пользователя», там также указывалось, что следует избегать ответов, утверждающих, что обе стороны спора имеют свои достоинства, хотя это не так.
Системные подсказки
Системные подсказки — инструкции, предоставляемые перед каждым разговором, — направляют поведение после развертывания модели.
Надо отдать должное xAI, он публикует системные подсказки Grok. Её инструкции «предполагать, что субъективные точки зрения, полученные из СМИ, предвзяты» и «не уклоняться от политически некорректных заявлений, если они хорошо обоснованы» стали, вероятно, ключевыми факторами в последней полемике.
На момент написания статьи эти подсказки обновлялись ежедневно, и их эволюция сама по себе является увлекательным исследованием.
Ограждения
Наконец, разработчики могут добавлять защитные барьеры — фильтры, блокирующие определённые запросы или ответы. OpenAI утверждает, что не позволяет ChatGPT «генерировать контент, разжигающий ненависть, домогательства, насилие или предназначенный только для взрослых». Тем временем китайская модель DeepSeek подвергает цензуре обсуждение событий на площади Тяньаньмэнь.
Специальное тестирование, проведенное во время написания этой статьи, показало, что Grok в этом отношении гораздо менее ограничен, чем продукты конкурентов.
Парадокс прозрачностиНацистская полемика Грока высвечивает более глубокую этическую проблему: предпочли бы мы, чтобы компании, занимающиеся разработкой ИИ, открыто и честно отстаивали свою идеологию или же поддерживали видимость нейтралитета, тайно внедряя свои ценности?
Каждая крупная система ИИ отражает мировоззрение своего создателя — от стремления к избеганию риска в Microsoft Copilot до ориентированной на безопасность философии Anthropic Claude. Разница заключается в прозрачности.
Публичные заявления Маска позволяют легко проследить связь поведения Грока с его заявлениями о «пробужденной идеологии» и предвзятости СМИ. Между тем, когда другие платформы с треском проваливаются, нам остаётся только гадать, отражает ли это мнение руководства, неприятие корпоративного риска, давление со стороны регулирующих органов или случайность.
Знакомо. Grok напоминает чат-бота Tay от Microsoft, созданного в 2016 году для распространения оскорбительных высказываний, который также обучался на данных Twitter и запускался в Twitter, прежде чем его отключили.
Но есть и принципиальное отличие. Расизм Tay возник из-за манипуляций пользователей и неэффективных мер безопасности — непреднамеренное последствие. Поведение Grok, похоже, как минимум отчасти обусловлено его дизайном.
Настоящий урок от Grok — честность в разработке ИИ. По мере того, как эти системы становятся всё более мощными и распространёнными (только что было объявлено о поддержке Grok в автомобилях Tesla), вопрос не в том, будет ли ИИ отражать человеческие ценности. Вопрос в том, будут ли компании открыто говорить о том, чьи ценности они кодируют и почему.
Подход Маска одновременно более честен (мы видим его влияние) и более обманчив (он заявляет об объективности, программируя субъективность), чем у его конкурентов.
В отрасли, построенной на мифе о нейтральных алгоритмах, Грок раскрывает то, что было правдой всегда: не существует такого понятия, как беспристрастный ИИ, — есть только ИИ, предвзятость которого мы можем видеть с разной степенью ясности.
Аарон Дж. Сносвелл, старший научный сотрудник по вопросам ответственности ИИ, Квинслендский технологический университет
Эта статья переиздана из The Conversation по лицензии Creative Commons.
Cbs News