Google Gemini вылетает из-за покемонов, имитируя панику

Google обнаружил нечто неожиданное в Gemini 2.5 Pro : когда он играет в Pokémon , он сходит с ума. И когда это происходит, его навыки рассуждения вылетают в трубу.
Близнецы теряют ясность сознания во время игры в покемоновВ своем последнем отчете Google объясняет, что Gemini 2.5 Pro проявляет признаки паники, когда его покемоны вот-вот будут побеждены. Это, конечно, не означает, что ИИ испытывает эмоции. Но поведение идеально имитирует поведение человека в состоянии стресса. Он принимает поспешные и плохие решения, перестает следовать эффективным стратегиям и приходит в замешательство.
Уже несколько месяцев два независимых разработчика создают каналы Twitch под названием « Gemini Plays Pokémon » и « Claude Plays Pokémon» . Любой желающий может подключиться и посмотреть в режиме реального времени, как эти ИИ пытаются пройти игру 25-летнего ребенка. Интересно то, что вы можете увидеть ход их рассуждений . Это как читать мысли машины. Результаты любопытны. Gemini требуются сотни часов, чтобы завершить то, что ребенок сделал бы за гораздо меньшее время.
Клод из Anthropic не исключение…Клод из Anthropic был еще более странным. В какой-то момент он понял, что когда у покемонов заканчивается энергия, они возвращаются в центр покемонов. Застряв в пещере горы Мун, Клод подумал, что если он намеренно вырубит всех своих покемонов, то его телепортирует в центр покемонов в следующем городе. К сожалению, это не так. Когда все ваши покемоны умирают, вы возвращаетесь в последний посещенный вами центр покемонов, а не в ближайший географически. Зрители с ужасом наблюдали, как ИИ, казалось, действовал «самоубийственно».
«Паника» Gemini стала настолько очевидной, что ее заметили даже пользователи Twitch. ИИ внезапно прекращает использовать определенные инструменты, имеющиеся в его распоряжении, и его производительность заметно ухудшается. Это поведение происходит достаточно часто, чтобы стать узнаваемым явлением для тех, кто смотрит трансляцию.
Почему полезно тестировать ИИ с помощью видеоигр?Несмотря на эти проблемы, есть области, где ИИ превосходит людей. Gemini 2.5 Pro может решать головоломки с валунами с впечатляющей точностью.
Изучение того, как ИИ играют в видеоигры, может показаться пустой тратой времени, но на самом деле это многое открывает о том, как работают эти модели. Традиционные бенчмарки часто мало что говорят об истинных возможностях ИИ. Видя, как Джемини вышагивает над покемонами, мы видим, что даже самые продвинутые ИИ могут развивать непредсказуемое и даже похожее на человеческое поведение!
Punto Informatico