Anthropic использовала Pokémon для тестирования своей новейшей модели ИИ

Anthropic использовала Pokémon для проверки своей новейшей модели ИИ. Да, действительно.
В сообщении в блоге, опубликованном в понедельник, Anthropic сообщила, что протестировала свою последнюю модель Claude 3.7 Sonnet на Game Boy classic Pokémon Red. Компания оснастила модель базовой памятью, экранным пиксельным вводом и функциональными вызовами для нажатия кнопок и навигации по экрану, что позволило ей играть в Pokémon непрерывно.
Уникальной особенностью Claude 3.7 Sonnet является его способность заниматься «расширенным мышлением». Подобно o3-mini от OpenAI и R1 от DeepSeek, Claude 3.7 Sonnet может «рассуждать» над сложными проблемами, применяя больше вычислений и тратя больше времени.
Видимо, это пригодилось в Pokémon Red.
По сравнению с предыдущей версией Клода, Клодом 3.0 Соннетом, который не смог покинуть дом в городе Паллет, где начинается история, Клод 3.7 Соннет успешно сразился с тремя лидерами спортзала покемонов и выиграл их значки.

Теперь неясно, сколько вычислений потребовалось Claude 3.7 Sonnet, чтобы достичь этих показателей, и сколько времени занял каждый из них. Anthropic только сказал, что модель выполнила 35 000 действий, чтобы достичь последнего лидера спортзала, Surge.
Наверняка скоро об этом узнает какой-нибудь предприимчивый разработчик.
Pokémon Red — это скорее игрушечный эталон, чем что-либо еще. Однако существует долгая история использования игр для целей бенчмаркинга ИИ. Только за последние несколько месяцев появилось несколько новых приложений и платформ для тестирования игровых способностей моделей в играх от Street Fighter до Pictionary .
techcrunch