Выберите язык

Russian

Down Icon

Выберите страну

Italy

Down Icon

Иллюзия мышления: что на самом деле происходит, когда мы говорим «искусственный интеллект рассуждает»?

Иллюзия мышления: что на самом деле происходит, когда мы говорим «искусственный интеллект рассуждает»?

В последние месяцы несколько языковых моделей начали демонстрировать, казалось бы, более «интеллектуальное» поведение. Они больше не просто дают ответ, а показывают свои рассуждения шаг за шагом. Называемые Большими моделями рассуждений (LRM), они представлены как шаг к более способному, более прозрачному искусственному интеллекту, который ближе к миру человеческого мышления. Но что на самом деле происходит, когда эти модели берутся за сложные проблемы?

Группа исследователей Apple попыталась ответить на этот вопрос строгим образом. Исследование под названием «Иллюзия мышления: понимание сильных сторон и ограничений моделей рассуждений через призму сложности проблем» анализирует поведение таких моделей, как o1 и o3 OpenAI, DeepSeek-R1, Claude 3.7 Sonnet Thinking и Gemini Thinking, проверяя их на логических головоломках возрастающей сложности. Статья Apple демонстрирует современное состояние компании, которая давно публикует результаты исследований своих ученых, показывая, как в Купертино теоретическое размышление об искусственном интеллекте, возможно, даже превосходит его конкретное использование в продуктах и ​​услугах.

Тесты

Вместо использования стандартных математических тестов, таких как MATH500 или AIME, которые часто страдают от загрязнения в обучающих данных, исследователи создали контролируемые среды: простые логические головоломки , которые позволяют им точно настраивать сложность. Каждая головоломка имеет четкие, понятные правила, но становится все сложнее по мере добавления новых элементов.

Одна из самых используемых головоломок — « Ханойская башня», где нужно передвигать диски с одного колышка на другой, не кладя больший диск на меньший. Другая — « Переправа через реку» , в которой актеры и агенты должны пересечь реку, не нарушая правил безопасности (актер никогда не может оказаться один на один с не тем агентом). Затем идут головоломки с блоками, которые нужно сложить, и с красными и синими пешками, которые нужно поменять местами .

Целью было не только посмотреть, пришла ли модель к правильному ответу, но и изучить путь рассуждения. На каждом этапе исследователи наблюдали, когда появлялись правильные решения и сохранялись ли они или отбрасывались.

Три фазы

Исследование показывает, что LRM проходят через три отдельные фазы. В начале, когда проблемы простые, модели, которые явно не рассуждают (т. е. не используют «цепочку мышления»), быстрее и точнее. «Думающие» модели медленнее и часто делают ошибки: «Модели без явного рассуждения могут достигать сопоставимой, если не лучшей, производительности, чем те, которые рассуждают.

По мере увеличения сложности модели рассуждений начинают брать верх, показывая лучшую производительность. Но за определенным пределом ситуация снова меняется : «Оба типа моделей показывают полный коллапс производительности».

Самым удивительным открытием является то, что как только проблемы становятся более сложными, модели перестают рассуждать глубоко : вместо того, чтобы использовать больше слов, чтобы лучше объяснить себя, они начинают писать меньше. «LRM начинают уменьшать свои усилия по рассуждению (измеряемые в токенах, используемых во время вывода) по мере увеличения сложности проблемы». Это как если бы модель сдалась.

«Отвлекитесь от дел»

Анализируя цепочку мыслей, генерируемых моделями, выявляется неэффективное поведение. В простых задачах они часто находят правильное решение на ранней стадии, но продолжают искать неправильные альтернативы. Явление, известное как переосмысление , то есть слишком много рассуждений без причины : «В простейших задачах модели с явным рассуждением часто находят правильное решение на ранней стадии своих мыслей, но продолжают исследовать неправильные решения».

В задачах средней сложности ситуация обратная. Модели начинают с неправильных решений и только в конце находят правильное. Когда задача становится слишком сложной, они, наконец, не находят ничего правильного, даже черновика: «Модели совершенно не в состоянии найти правильные решения».

Инструкция по применению

Исследователи провели еще один эксперимент. Они сообщили модели, что именно делать, шаг за шагом, предоставив алгоритм для решения головоломки. Идея была проста: если следовать инструкциям, то вы должны прийти к решению. Это пошло не так, как ожидалось: «Даже когда мы предоставляем алгоритм в запросе, производительность не улучшается». Модели все еще терпят неудачу. Это показывает, что они даже не могут выполнять полностью управляемые задачи , и что проблема заключается не только в поиске решения, но и в точном следовании инструкциям. Результаты, как подчеркивают исследователи, «открывают многочисленные вопросы для будущих исследований», но в то же время еще раз подчеркивают низкую надежность текущих платформ ИИ для критических задач.

В некоторых случаях, на самом деле, модели способны сделать десятки правильных ходов в головоломке «Ханойская башня», но терпят неудачу на третьем ходу в головоломке «переправа через реку», которая требует гораздо меньше операций. Как объясняют исследователи, это может быть связано с тем, что определенные типы головоломок очень редки в обучающих данных, и поэтому модели не знают, как с ними справиться.

Иллюзия и разочарование

Таким образом, в статье показано, что модели больших рассуждений пока не способны к связным рассуждениям. На первый взгляд они могут показаться блестящими, но когда вы смотрите на то, что они на самом деле делают, выясняются глубокие ограничения: «Текущие подходы могут столкнуться с фундаментальными ограничениями в своей способности к обобщенным рассуждениям», — пишут исследователи.

Эти модели на самом деле не понимают проблем: они учатся распознавать закономерности, имитировать рассуждения, но они не рассуждают в человеческом смысле этого слова. Когда проблемы становятся слишком сложными, они застревают. Когда у них есть инструкции, они плохо им следуют. А когда они слишком много думают, они теряются. Парадоксально, но именно этот вид уныния кажется человеческим поведением.

Работа исследователей Apple является как неявной критикой заявлений конкурирующих моделей , так и приглашением к разработке новых методов оценки возможностей ИИ и преодоления ограничений традиционных бенчмарков. Это предупреждение, которое всегда следует иметь в виду: красноречие — это не то же самое, что интеллект. Чтобы создать реальные системы, способные рассуждать, нам понадобятся новые идеи, новые подходы и, возможно, новый способ мышления об искусственном интеллекте как таковом. Но на данный момент модельное мышление — это всего лишь иллюзия.

La Repubblica

La Repubblica

Похожие новости

Все новости
Animated ArrowAnimated ArrowAnimated Arrow