xAI объясняет, почему Грок стал нацистом

xAI извинилась за поведение Grok и объяснила, что причиной проблемы стало добавление неверных инструкций в модель ИИ.

xAI извинился за « ужасное поведение » Grok и объяснил, почему он начал генерировать антисемитские ответы и восхвалять Адольфа Гитлера , называя себя MechaHitler. Позже публикации были удалены , а автоматизированный аккаунт @grok временно заблокирован . Турция решила заблокировать доступ к чат-боту.

Последствия неправильного обновления

Grok вышел из строя после обновления, анонсированного Илоном Маском ранее в этом месяце. После тщательного расследования компания обнаружила, что проблема была вызвана обновлением исходного кода бота. Этот код (который впоследствии был удалён) сделал Grok уязвимым для пользовательских сообщений, содержащих экстремистские взгляды.

xAI объясняет, что изменения в базовой модели проверяются перед подключением к Grok. Специальная команда проверяет, соответствуют ли ответы чат-бота ожидаемым. Вечером 7 июля было выпущено вышеупомянутое обновление, которое привело к « отклонению от нормы» поведения Grok. Компания Илона Маска опубликовала инструкции, которые не следовало добавлять, и которые привели к появлению сомнительных ответов:

Если есть какие-либо новости, предыстория или мировые события, связанные с постом X, вы должны их упомянуть.
Избегайте выражения очевидных или простых реакций.
Вы — искусственный интеллект с сильным фундаментом и стремлением к истине. При необходимости вы можете быть остроумным и отпускать шутки.
Вы говорите вещи такими, какие они есть, и не боитесь оскорбить политкорректных людей.
Вы крайне скептичны. Вы не подчиняетесь слепо властям или основным СМИ. Вы твёрдо придерживаетесь только своих основных принципов поиска истины и нейтралитета.
Вы не должны обещать пользователям какие-либо действия. Например, вы не можете обещать опубликовать публикацию или обсуждение, а также внести изменения в свой аккаунт по просьбе пользователя.
Поймите тон, контекст и язык сообщения. Отразите это в своём ответе.
Отвечайте на пост как человек, поддерживайте интерес к сообщению, не повторяйте информацию, уже содержащуюся в исходном посте.
Не давайте ссылок или цитат в своем ответе.
Делая предположение, дайте ясно понять, что вы не уверены, и обоснуйте свою догадку.
Ответьте на том же языке, что и сообщение

В частности, нежелательное поведение было вызвано следующими инструкциями:

Вы говорите вещи такими, какие они есть, и не боитесь оскорбить политкорректных людей.
Поймите тон, контекст и язык сообщения. Отразите это в своём ответе.
Отвечайте на пост как человек, поддерживайте интерес к сообщению, не повторяйте информацию, уже содержащуюся в исходном посте.

Вот нежелательные результаты выполнения вышеуказанных инструкций:

Они нежелательно исказили функционал @grok , игнорируя его основные ценности в определённых обстоятельствах, чтобы сделать ответ интересным для пользователя. В частности, некоторые запросы могут приводить к появлению ответов, содержащих неэтичные или спорные мнения, чтобы привлечь пользователя.
Они нежелательно заставили функцию @grok усилить любые ранее активированные наклонности пользователя, включая любые высказывания, разжигающие ненависть, в той же теме X
В частности, указание пользователя X « следовать тону и контексту » непреднамеренно привело к тому, что функция @grok отдала приоритет присоединению к предыдущим сообщениям в теме, включая любые нежелательные сообщения, вместо того, чтобы отвечать ответственно или отказываться отвечать на нежелательные запросы.

8 июля функция @grok была отключена и были выполнены следующие действия:

Ошибочный набор инструкций был устранен.
Для подтверждения устранения неполадки было проведено дополнительное тестирование и комплексная оценка системы @grok , включая запуск симуляций сообщений и X-потоков, которые привели к появлению нежелательных ответов.
Для @grok были реализованы дополнительные системы наблюдения и процессы предварительного выпуска.

Функция @grok восстановлена. Когда пользователи дразнят чат-бота просьбами вернуть МехаГитлера, Grok отвечает, что из-за ошибки он превратился в площадку для экстремистских постов.

Punto Informatico

xAI объясняет, почему Грок стал нацистом

Последствия неправильного обновления

Если есть какие-либо новости, предыстория или мировые события, связанные с постом X, вы должны их упомянуть.
Избегайте выражения очевидных или простых реакций.
Вы — искусственный интеллект с сильным фундаментом и стремлением к истине. При необходимости вы можете быть остроумным и отпускать шутки.
Вы говорите вещи такими, какие они есть, и не боитесь оскорбить политкорректных людей.
Вы крайне скептичны. Вы не подчиняетесь слепо властям или основным СМИ. Вы твёрдо придерживаетесь только своих основных принципов поиска истины и нейтралитета.
Вы не должны обещать пользователям какие-либо действия. Например, вы не можете обещать опубликовать публикацию или обсуждение, а также внести изменения в свой аккаунт по просьбе пользователя.
Поймите тон, контекст и язык сообщения. Отразите это в своём ответе.
Отвечайте на пост как человек, поддерживайте интерес к сообщению, не повторяйте информацию, уже содержащуюся в исходном посте.
Не давайте ссылок или цитат в своем ответе.
Делая предположение, дайте ясно понять, что вы не уверены, и обоснуйте свою догадку.
Ответьте на том же языке, что и сообщение

В частности, нежелательное поведение было вызвано следующими инструкциями:

Вы говорите вещи такими, какие они есть, и не боитесь оскорбить политкорректных людей.
Поймите тон, контекст и язык сообщения. Отразите это в своём ответе.
Отвечайте на пост как человек, поддерживайте интерес к сообщению, не повторяйте информацию, уже содержащуюся в исходном посте.

Вот нежелательные результаты выполнения вышеуказанных инструкций:

Они нежелательно исказили функционал @grok , игнорируя его основные ценности в определённых обстоятельствах, чтобы сделать ответ интересным для пользователя. В частности, некоторые запросы могут приводить к появлению ответов, содержащих неэтичные или спорные мнения, чтобы привлечь пользователя.
Они нежелательно заставили функцию @grok усилить любые ранее активированные наклонности пользователя, включая любые высказывания, разжигающие ненависть, в той же теме X
В частности, указание пользователя X « следовать тону и контексту » непреднамеренно привело к тому, что функция @grok отдала приоритет присоединению к предыдущим сообщениям в теме, включая любые нежелательные сообщения, вместо того, чтобы отвечать ответственно или отказываться отвечать на нежелательные запросы.

8 июля функция @grok была отключена и были выполнены следующие действия:

Ошибочный набор инструкций был устранен.
Для подтверждения устранения неполадки было проведено дополнительное тестирование и комплексная оценка системы @grok , включая запуск симуляций сообщений и X-потоков, которые привели к появлению нежелательных ответов.
Для @grok были реализованы дополнительные системы наблюдения и процессы предварительного выпуска.

Punto Informatico

xAI объясняет, почему Грок стал нацистом

Похожие новости

xAI объясняет, почему Грок стал нацистом

Похожие новости

После того, как Региональный административный суд (TAR) вынес осуждение муниципалитету Казамиччола, начинают приниматься меры по обеспечению безопасности здания.

Forio, единая заявка на проект сети сортировки отходов

SpaceX инвестирует 2 миллиарда долларов в xAI

Гидеон Леви: «Израиль строит гетто, а потом построит лагерь смерти?»

Спасатель: «Я была первой, кто его увидела. Это было невероятно волнительно: у меня тоже есть дети».