« C’est une illusion » : une étude d’Apple remet en question le plus grand mythe de l’intelligence artificielle.

Apple a déclenché une polémique dans le monde de l'intelligence artificielle (IA) il y a quelques jours avec la publication d'une étude qui cible directement l'un des piliers discursifs de cette technologie : la supposée capacité de modèles comme ChatGPT à « raisonner ».
L’ article , intitulé L’illusion de la pensée , soutient que, malgré les apparences, les systèmes d’IA générative ne pensent pas et ne raisonnent pas comme les humains , et que même le « raisonnement » qu’ils semblent afficher peut être contre-productif .
La recherche, menée par des scientifiques d' Apple Machine Learning Research , intervient à un moment où la société de Cupertino semble être à la traîne par rapport à des concurrents tels qu'OpenAI , Google et Anthropic, leaders dans le développement de modèles linguistiques avancés.
De ce fait, de nombreux observateurs ont rapidement considéré l’étude comme une tentative de remettre en question les récits extérieurs plutôt que comme une contribution purement académique.
Pour autant, le contenu de ces travaux n'est pas passé inaperçu. Apple propose une nouvelle catégorie de modèles appelés « Modèles de Raisonnement Larges » (LRM) , conçus pour générer un raisonnement intermédiaire avant de fournir une réponse. L'objectif : évaluer si l'inclusion explicite de processus logiques améliore les performances de l'IA sur différents types de tâches.
« L’illusion de la pensée » : le document avec lequel Apple tente de dénoncer l’IA.
Pour éviter les biais découlant des données acquises lors de la formation, les chercheurs ont soumis ces modèles à une série d' énigmes synthétiques telles que la classique Tour de Hanoï, le saut de dames, les traversées de rivières et les problèmes de manipulation de blocs (Blocks World). Ces scénarios ont été spécifiquement conçus pour exiger une réflexion logique et une planification étape par étape .
Les résultats ont été surprenants : bien que les LRM aient montré un avantage sur les modèles traditionnels dans les défis de complexité moyenne, ils se sont complètement effondrés lorsque la difficulté a été augmentée .
De plus, cet effondrement n’était pas dû à un manque de ressources informatiques, mais à un phénomène plus déroutant : « Leur effort de raisonnement augmente avec la complexité du problème jusqu’à un certain point, puis diminue malgré un budget adéquat. »
Ce qui est frappant, c'est que, lors de tests simples, les modèles de raisonnement sont encore moins performants que les modèles standards . Autrement dit, lorsque les tâches ne nécessitent pas de logique avancée, la réflexion excessive peut devenir un obstacle .
« L'analyse du premier mouvement raté des modèles a révélé un comportement surprenant . Par exemple, ils ont réussi jusqu'à 100 mouvements corrects sur la Tour de Hanoï, mais n'ont pas réussi plus de 5 mouvements corrects sur le puzzle de la Traversée de la Rivière », ajoutent les auteurs.
Dans l’ensemble, l’étude semble remettre en question le discours de plus en plus répandu selon lequel nous sommes à l’aube d’une intelligence artificielle de niveau humain, ou même d’une IA ( intelligence artificielle générale ).
Apple suggère que cette idée repose sur une illusion : celle de confondre la capacité des modèles à verbaliser des étapes logiques avec une véritable compréhension des problèmes.
En ce sens, la conclusion de l'ouvrage est catégorique : ce qui apparaît comme un raisonnement n'est rien d'autre que l'écho de schémas appris . L'IA, du moins pour l'instant, ne raisonne pas : elle simule . Et lorsque la simulation est poussée au-delà de ses limites connues, elle s'effondre .
Apple n'a pas encore lancé de modèle capable de rivaliser sur un pied d'égalité. (Photo : Reuters)
Cette vision contraste avec l'approche adoptée par d'autres géants de la technologie, qui ont explicitement intégré des fonctions de raisonnement dans leurs modèles. OpenAI avec GPT-4 , Google avec Gemini et Anthropic avec Claude visent tous à renforcer ces capacités, considérées comme une étape vers des systèmes plus autonomes et plus fiables.
Du côté critique, de nombreuses voix se sont élevées pour souligner que l'étude d'Apple ne révèle pas de faille majeure, mais décrit simplement un phénomène bien connu : la sur-réflexion . C'est-à-dire la tendance de certains modèles à générer des raisonnements inutilement longs et complexes , pouvant entraîner des erreurs ou des plantages.
On peut également se demander si Apple, ne disposant pas de sa propre IA comparable à celle de ses concurrents , a intérêt à discréditer les avancées d'autrui. L'entreprise entretient des partenariats avec des acteurs comme OpenAI, mais n'a pas encore lancé son propre modèle linguistique capable de rivaliser sur un pied d'égalité.
Au-delà des intentions derrière ce document, Apple a en réalité réussi à susciter un débat crucial : que signifie réellement « penser » pour l'intelligence artificielle ? Confondons-nous la forme et le fond ?
Dans l'euphorie qui entoure les systèmes conversationnels, L'Illusion de la pensée pose un défi. Et s'il ne clôt pas le débat, il remet en question l'un des fantasmes les plus récurrents du moment : celui selon lequel les machines commenceraient enfin à penser.
Clarin