«Это иллюзия»: исследование Apple опровергает главный миф об искусственном интеллекте.

Несколько дней назад компания Apple спровоцировала споры в мире искусственного интеллекта (ИИ), опубликовав исследование , которое напрямую нацелено на один из дискурсивных столпов этой технологии: предполагаемую способность таких моделей, как ChatGPT , «рассуждать».
В статье под названием «Иллюзия мышления » утверждается, что, несмотря на внешний вид, генеративные системы искусственного интеллекта не думают и не рассуждают как люди , и что даже «рассуждение», которое они, по-видимому, демонстрируют, может быть контрпродуктивным .
Исследование, проведенное учеными из Apple Machine Learning Research , проводится в то время, когда компания из Купертино, по-видимому, отстает от таких конкурентов, как OpenAI , Google и Anthropic, лидеров в разработке передовых языковых моделей.
По этой причине многие наблюдатели поспешили расценить исследование как попытку бросить вызов внешним представлениям, а не как чисто академический вклад.
Тем не менее, содержание работы не осталось незамеченным. Apple предлагает новую категорию моделей, называемых «большими моделями рассуждений» (LRM) , предназначенных для генерации промежуточных рассуждений перед выдачей ответа. Цель: оценить, улучшает ли явное включение логических процессов производительность ИИ при выполнении различных типов задач.
«Иллюзия мышления»: статья, с помощью которой Apple пытается разоблачить ИИ.
Чтобы избежать предвзятости, полученной из данных, полученных во время обучения, исследователи подвергли эти модели серии синтетических головоломок, таких как классическая Ханойская башня, Прыжки с шашками, пересечения рек и проблемы с манипуляцией блоками (Blocks World). Эти сценарии были специально разработаны для того, чтобы требовать логического мышления и пошагового планирования .
Результаты оказались неожиданными: хотя LRM показали преимущество перед традиционными моделями в задачах средней сложности, они полностью потерпели крах при повышении сложности .
Более того, этот коллапс был вызван не нехваткой вычислительных ресурсов, а более загадочным явлением: «Их усилия по рассуждению возрастают с ростом сложности проблемы до определенного момента, а затем уменьшаются, несмотря на наличие адекватного бюджета».
Поразительно, что на простых тестах модели рассуждений работают даже хуже, чем стандартные модели . То есть, когда задачи не требуют продвинутой логики, чрезмерное мышление может стать помехой .
«Исследование первого неудачного хода моделей выявило удивительное поведение . Например, они могли сделать до 100 правильных ходов при рисовании Ханойской башни, но не смогли сделать более 5 правильных ходов при рисовании головоломки «Переправа через реку»», — добавляют авторы.
В целом, исследование, по-видимому, ставит под сомнение все более распространенное мнение о том, что мы находимся на пороге создания искусственного интеллекта человеческого уровня или даже ОИИ ( искусственного общего интеллекта ).
Apple предполагает, что эта идея основана на иллюзии : она путает способность моделей вербализовать логические шаги с подлинным пониманием проблем.
В этом смысле вывод работы категоричен: то, что кажется рассуждением, есть не более чем отголосок усвоенных шаблонов . ИИ, по крайней мере сейчас, не рассуждает: он симулирует . И когда симуляция выходит за известные ей пределы, она ломается .
Apple еще не выпустила собственную модель, которая могла бы конкурировать на равных. (Фото: Reuters)
Это видение контрастирует с подходом других технологических гигантов, которые явно включили функции рассуждения в свои модели. OpenAI с GPT-4 , Google с Gemini и Anthropic с Claude — все они стремятся усилить эти возможности, которые рассматриваются как шаг к более автономным и надежным системам.
С критической стороны было много голосов, указывающих на то, что исследование Apple не раскрывает серьезных недостатков, а просто описывает хорошо известное явление: переосмысление . То есть тенденцию некоторых моделей генерировать неоправданно длинные и сложные рассуждения , что может привести к ошибкам или сбоям.
Также есть вопросы о том, есть ли у Apple, без собственного ИИ на уровне с конкурентами , стимул дискредитировать достижения других людей. Компания поддерживает партнерские отношения с такими игроками, как OpenAI, но пока не запустила собственную языковую модель , которая конкурировала бы на равных условиях.
Помимо намерений, стоящих за статьей, правда в том, что Apple удалось вынести на обсуждение ключевое: что на самом деле означает «мышление» для искусственного интеллекта? Не путаем ли мы форму с содержанием?
Среди эйфории, окружающей разговорные системы, «Иллюзия мышления» бросает вызов. И хотя она не заканчивает спор, она ставит под сомнение одну из самых повторяющихся фантазий современности: что машины наконец-то начинают думать.
Clarin