Pourquoi ChatGPT n’est-il pas une véritable IA ?

L'intelligence artificielle est un rêve depuis des siècles, mais elle n'a fait son apparition que récemment grâce aux formidables progrès de la puissance de calcul et de l'analyse des données. Les grands modèles de langage (LLM) comme ChatGPT sont une forme très avancée de saisie semi-automatique. Leur potentiel impressionnant réside dans le fait que les données d'apprentissage proviennent de l'ensemble d'Internet. Les LLM sont peut-être un ingrédient de la formule d'une véritable intelligence artificielle générale, mais ils ne constituent certainement pas la formule complète, et nous ignorons probablement encore certains des autres ingrédients.
Grâce à ChatGPT, nous pouvons enfin tous découvrir l'intelligence artificielle. Il suffit d'un navigateur web pour communiquer directement avec le système d'IA le plus avancé au monde, fruit de 70 ans de travail. Et cela ressemble à une véritable IA, celle que nous avons tous vue au cinéma. Mais est-ce à dire que nous avons enfin trouvé la formule de la véritable IA ? La fin de l'IA est-elle proche ?
Selon Popular Science Turkish, l'intelligence artificielle est l'un des plus vieux rêves de l'humanité. Elle remonte au moins à la Grèce antique et à la légende d'Héphaïstos, le forgeron des dieux. Héphaïstos avait le pouvoir de donner vie à des créatures métalliques. Depuis, diverses interprétations de ce thème ont émergé dans la mythologie et la fiction. Cependant, l'intelligence artificielle a commencé à paraître plausible avec l'invention de l'ordinateur à la fin des années 1940.
Une formule pour l'intelligence artificielle symboliqueLes ordinateurs sont des machines qui suivent des instructions. Les programmes que nous leur fournissons ne sont rien d'autre que des instructions finement détaillées ; ce sont des formules que l'ordinateur suit fidèlement. Votre navigateur web, votre client de messagerie et votre traitement de texte ne sont que cette liste incroyablement détaillée d'instructions. Si une « véritable intelligence artificielle » était possible – le rêve d'ordinateurs aussi performants que les humains –, alors elle se résumerait à une telle formule. Il ne nous reste plus qu'à trouver la bonne formule pour faire de l'IA une réalité. À quoi ressemblerait-elle ? Et compte tenu de l'engouement récent autour de ChatGPT, GPT-4 et BARD (appelés à juste titre modèles de langage étendus [LLM]), avons-nous enfin trouvé la formule de la véritable IA ?
Pendant près de 40 ans, le concept fondamental qui a guidé les tentatives d'intelligence artificielle consistait à modéliser l'esprit conscient – les pensées et les processus de raisonnement qui constituent notre existence consciente. Cette approche était appelée IA symbolique, car nos pensées et notre raisonnement semblaient utiliser un langage composé de symboles – lettres, mots et signes de ponctuation. L'IA symbolique impliquait non seulement de trouver des formules capturant ces expressions symboliques, mais aussi de reproduire le raisonnement et la prise de décision en manipulant ces symboles.
L'IA symbolique a connu un certain succès, mais elle a échoué de manière spectaculaire sur un large éventail de tâches qui semblaient triviales pour les humains. Même une tâche aussi simple que la reconnaissance d'un visage humain dépassait les capacités de l'IA symbolique. En effet, la reconnaissance des visages requiert de la perception. La perception est le problème de la compréhension de ce que nous voyons, entendons et ressentons. La plupart d'entre nous tiennent la perception pour acquise ; nous n'y pensons pas beaucoup et ne l'associons certainement pas à l'intelligence. Mais l'IA symbolique était la mauvaise solution pour résoudre les problèmes qui requièrent de la perception.
Les réseaux neuronaux arriventUne formule alternative pour l'intelligence artificielle consiste à modéliser les structures cérébrales plutôt que l'esprit. Après tout, le cerveau humain est la seule entité connue aujourd'hui capable de générer l'intelligence humaine. Si vous observez un cerveau au microscope, vous verrez un grand nombre de cellules nerveuses, appelées neurones, connectées entre elles en de vastes réseaux. Chaque neurone recherche des schémas au sein de son réseau de connexions. Lorsqu'un neurone reconnaît un schéma, il envoie des signaux à ses voisins. Ces derniers, à leur tour, recherchent des schémas et, lorsqu'ils en voient un, communiquent avec leurs pairs, et ainsi de suite.
On ne peut l'expliquer logiquement, mais d'une manière ou d'une autre, ces immenses réseaux de neurones peuvent apprendre et, à terme, produire un comportement intelligent. Le domaine des réseaux neuronaux est né dans les années 1940, inspiré par l'idée que ces réseaux de neurones pouvaient être imités par des circuits électriques. Aujourd'hui, les réseaux neuronaux sont implémentés dans des logiciels plutôt que dans des circuits électriques, et, à vrai dire, les chercheurs en réseaux neuronaux ne cherchent pas réellement à modéliser le cerveau. Cependant, les structures logicielles qu'ils utilisent – de vastes réseaux composés de dispositifs informatiques très simples – s'inspirent des structures neuronales que nous observons dans le cerveau et le système nerveux.
Les réseaux neuronaux, dont la popularité a fluctué à diverses époques (notamment à la fin des années 1960 et au milieu des années 1980), sont étudiés en continu depuis les années 1940 et sont souvent considérés comme des concurrents de l'intelligence artificielle symbolique. Cependant, ce n'est qu'au cours de la dernière décennie qu'ils ont commencé à fonctionner de manière cohérente. Tout l'engouement suscité par l'IA au cours de cette dernière décennie est dû aux progrès rapides réalisés par les réseaux neuronaux sur de nombreux problèmes d'IA.
Malheureusement, l'essor des réseaux neuronaux au cours de ce siècle s'explique par des raisons banales. Bien sûr, des avancées scientifiques ont eu lieu, comme l'apparition de nouvelles structures de réseaux neuronaux et des algorithmes qui les structurent. Mais en réalité, les idées fondamentales des réseaux neuronaux actuels étaient connues dès les années 1980. Ce siècle a apporté avec lui une abondance de données et de puissance de calcul. L'entraînement d'un réseau neuronal nécessite les deux, et ces deux éléments sont devenus abondants au cours de ce siècle.
Tous les systèmes d'IA qui ont fait parler d'eux récemment utilisent des réseaux neuronaux. Par exemple, AlphaGo, le célèbre logiciel de Go développé par la société d'IA londonienne DeepMind, qui a battu un champion du monde en mars 2016, utilise deux réseaux neuronaux, chacun composé de 12 couches neuronales. Les données utilisées pour entraîner ces réseaux proviennent de précédentes parties de Go jouées en ligne, ainsi que de parties jouées par le logiciel lui-même, c'est-à-dire des parties qu'il joue contre lui-même. Les systèmes d'IA qui ont fait la une des journaux ces dernières années, comme ChatGPT et GPT-4 d'OpenAI, une société d'IA soutenue par Microsoft, ainsi que BARD de Google, utilisent également des réseaux neuronaux. Ce qui distingue ces derniers développements, c'est simplement leur taille. Tout dans ces modèles est époustouflant par son ampleur.
Puissance massive, données massivesPrenons l'exemple du système GPT-3 d'OpenAI, annoncé à l'été 2020. Il s'agit de la technologie sous-jacente de ChatGPT. C'est le LLM qui a marqué une avancée majeure dans cette technologie. Les réseaux neuronaux qui composent GPT-3 sont gigantesques. Lorsque les spécialistes des réseaux neuronaux décrivent la taille d'un réseau, ils font référence à son nombre de « paramètres ». Dans ce contexte, un « paramètre » désigne soit un neurone unique, soit un composant du réseau, une connexion entre neurones. GPT-3 compte 175 milliards de paramètres au total, tandis que GPT-4 en compterait mille milliards. À titre de comparaison, un cerveau humain compte environ cent milliards de neurones, reliés par pas moins de mille milliards de connexions synaptiques. Si les LLM existants sont gigantesques, ils restent en deçà de la taille du cerveau humain.
Les données utilisées pour entraîner GPT étaient constituées de 575 gigaoctets de texte. Vous vous dites peut-être : « Ça n'a l'air de rien ; après tout, on peut le stocker sur un ordinateur classique. » Mais il ne s'agit pas de vidéos, de photos ou de musique ; c'est simplement du texte brut. Et 575 gigaoctets de texte brut représentent une quantité inimaginable : bien plus que ce qu'une personne pourrait lire en une vie. Où ont-ils trouvé tout ce texte ? Ils ont téléchargé le Web. Tout. Chaque lien de chaque page web a été suivi, le texte a été extrait, puis le processus a été répété, en suivant systématiquement chaque lien jusqu'à ce que chaque élément de texte du Web soit généré. Wikipédia en anglais ne représentait que 3 % du total des données d'entraînement.
Mais qu'en est-il de l'ordinateur nécessaire pour traiter tout ce texte et entraîner ces réseaux massifs ? Les informaticiens utilisent le terme « opération à virgule flottante », ou « FLOP », pour désigner un calcul arithmétique unique ; un FLOP est une opération d'addition, de soustraction, de multiplication ou de division unique. L'entraînement de GPT-3 a nécessité 3^1023 FLOPs. Notre humble expérience humaine ne nous permet pas de comprendre des nombres aussi importants. Autrement dit : si vous essayiez d'entraîner GPT-3 sur un ordinateur de bureau classique construit en 2023, il faudrait qu'il fonctionne en continu pendant environ 10 000 ans pour exécuter autant de FLOPs.
Bien sûr, OpenAI n'a pas entraîné GPT-3 sur un ordinateur de bureau. Ils ont utilisé des supercalculateurs très coûteux, équipés de milliers de processeurs d'IA spécialisés, fonctionnant sans interruption pendant des mois. Et cette quantité de calcul est onéreuse. Le temps de calcul nécessaire à l'entraînement de GPT-3 coûte des millions de dollars sur le marché libre. Ceci, plus que tout autre chose, signifie que peu d'organisations, à l'exception de quelques grandes entreprises technologiques et d'États-nations, peuvent se permettre de développer des systèmes comme ChatGPT.
Sous l'égide du LLMMalgré leur ampleur ahurissante, les LLM font en réalité quelque chose de très simple. Imaginez que vous allumez votre smartphone et que vous commencez à envoyer un SMS à votre conjoint avec les mots « quand ». Votre téléphone suggère des compléments à ce texte. Par exemple, il pourrait suggérer des mots comme « tu rentres » ou « on dîne ». Il suggère ces mots parce que votre téléphone prédit que ce sont les mots les plus susceptibles d'apparaître après « quand ». Votre téléphone effectue cette prédiction en se basant sur tous les SMS que vous avez envoyés, et à partir de ces messages, il apprend que ce sont les compléments les plus probables à « quand ». Les LLM font la même chose, mais comme nous l'avons vu, à une échelle bien plus grande. Les données d'apprentissage ne se limitent pas à vos SMS ; il s'agit de tous les textes du monde au format numérique. Que produit cette échelle ? C'est tout à fait remarquable et inattendu.
La première chose que l'on remarque en utilisant ChatGPT ou BARD, c'est leur capacité exceptionnelle à produire du texte très naturel. Ce n'est pas surprenant ; c'est leur fonction première, et c'est tout l'intérêt de ces 575 Go de texte. Mais ce qui est inattendu, c'est que les LLM acquièrent également d'autres capacités que nous ne maîtrisons pas encore : des capacités qui doivent être comprises, d'une manière ou d'une autre, implicitement dans le vaste corpus de textes sur lequel ils sont entraînés.
Par exemple, on peut demander à ChatGPT de résumer un texte, et il s'en sort généralement très bien. On peut lui demander d'extraire des points clés d'un texte ou de comparer des fragments de texte, et il semble également très performant dans ces tâches. Si les chercheurs en IA ont été alarmés par la puissance des LLM lors de la sortie de GPT-3 en 2020, le reste du monde n'a compris l'intérêt qu'avec la sortie de ChatGPT en novembre 2022. Il a attiré des centaines de millions d'utilisateurs en quelques mois. L'IA est un sujet récurrent depuis une décennie, mais l'engouement suscité par la presse et les réseaux sociaux lors de la sortie de ChatGPT a été sans précédent : l'IA est devenue virale.
L'ère de l'intelligence artificielleÀ ce stade, je dois dire quelque chose de réconfortant. Grâce à ChatGPT, nous avons enfin atteint l'ère de l'intelligence artificielle. Chaque jour, des centaines de millions de personnes interagissent avec l'IA la plus complexe de la planète. Cela a nécessité 70 ans d'efforts scientifiques, d'innombrables carrières, des milliards et des milliards de dollars d'investissement, des centaines de milliers d'articles scientifiques et des supercalculateurs d'IA fonctionnant à plein régime pendant des mois. L'intelligence artificielle que le monde a enfin atteinte est… l'exécution des commandes.
L'avenir d'entreprises valant des milliards de dollars est désormais en jeu. Leur sort dépend de… la capacité à répondre aux demandes. Exactement ce que fait votre téléphone portable. En tant que chercheur en IA travaillant dans ce domaine depuis plus de 30 ans, je dois dire que je trouve cette situation profondément inquiétante. C'est véritablement scandaleux. Qui aurait pu prédire que cette version de l'IA finirait par générer les plus gros bénéfices ?
À chaque progrès rapide de l'IA, quelqu'un finit par déclarer que nous sommes sur la voie de la véritable IA. Vu le succès des masters de droit, il n'est pas surprenant que des affirmations similaires soient aujourd'hui formulées. Alors, prenons le temps de réfléchir. Si nous réussissons dans l'IA, les machines devront être capables de faire tout ce que l'humain peut faire.
Considérons les deux principales branches de l'intelligence humaine : l'une implique des capacités purement mentales, l'autre des capacités physiques. Par exemple, les capacités mentales comprennent le raisonnement logique et abstrait, le raisonnement de bon sens (comme comprendre qu'un œuf tombé va se casser ou que je ne peux pas manger de Kansas), le raisonnement numérique et mathématique, la résolution de problèmes et la planification, le traitement du langage naturel, un état d'esprit logique, une activité, la capacité de mémorisation et la capacité d'empathie. Les capacités physiques comprennent la compréhension sensorielle (c'est-à-dire l'interprétation des informations provenant de nos cinq sens), la mobilité, l'orientation, la dextérité manuelle et les mouvements, la coordination œil-main et la proprioception.
Je souligne que cette liste des capacités humaines est loin d'être exhaustive. Mais si jamais nous disposions d'une véritable IA – une IA aussi compétente que nous –, elle posséderait certainement toutes ces capacités.
Les LLM ne sont pas de véritables IALe plus évident est que les LLM ne sont pas une technologie adaptée à ces capacités physiques. Ils n'existent pas dans le monde réel, et les défis posés par l'IA robotique n'ont absolument aucun rapport avec les objectifs des LLM. De plus, les progrès de l'IA robotique ont été bien plus lents que ceux des LLM. Étonnamment, des capacités robotiques comme la dextérité manuelle sont encore loin d'être maîtrisées. De plus, les LLM n'offrent aucune solution à ces défis.
Bien sûr, on pourrait considérer un système d'IA comme une pure intelligence logicielle. Alors, comment les LLM se comparent-ils aux capacités mentales mentionnées ci-dessus ? Parmi celles-ci, on pourrait affirmer que les LLM n'ont réellement progressé de manière significative que dans le traitement du langage naturel, c'est-à-dire la capacité à communiquer efficacement dans des langues humaines courantes. Rien de surprenant à cela ; c'est leur vocation première.
Mais leur maîtrise remarquable de la communication humaine nous porte peut-être à croire qu'ils sont bien plus compétents dans d'autres domaines qu'ils ne le sont en réalité. Ils peuvent effectuer un certain raisonnement logique artificiel et résoudre des problèmes, mais ces capacités sont pour l'instant superficielles. Il serait peut-être surprenant qu'ils puissent faire autre chose que du traitement du langage naturel. Ils n'ont pas été conçus pour faire autre chose, donc ces autres fonctions sont un bonus ; toute capacité supplémentaire doit être implicite dans le texte sur lequel le système a été entraîné.
Pour ces raisons et bien d'autres, il me semble peu probable que la technologie du LLM offre à elle seule la voie vers une « véritable IA ». Elles n'existent pas réellement dans notre monde, et elles ne s'en rendent même pas compte. Si vous quittez un LLM en pleine conversation et partez en vacances pendant une semaine, elles ne se demanderont pas où vous êtes. Elles ne se rendent pas compte du temps qui passe et, en fait, elles ne se rendent compte de rien. C'est un programme informatique qui ne fait littéralement rien jusqu'à ce que vous saisissiez une invite, puis calcule simplement une réponse à cette invite, après quoi elles retournent à l'inaction. Leur connaissance encyclopédique du monde reste inchangée par rapport à leur formation. Elles ne savent rien au-delà.
De plus, les étudiants en master n'ont jamais rien expérimenté. Ce sont simplement des programmes qui ont assimilé des quantités inimaginables de texte. Ils décrivent peut-être très bien la sensation d'ivresse, mais c'est parce qu'ils en ont lu d'innombrables descriptions. Ils ne l'ont pas vécue eux-mêmes, et ils ne le peuvent pas. Leur seul objectif est de formuler la meilleure réponse possible à toutes les questions qu'on leur lance.
Cela ne signifie pas qu'ils ne sont pas impressionnants (ce qui est le cas) ou qu'ils ne peuvent pas être utiles (ce qui est le cas). Je crois sincèrement que nous sommes à un véritable tournant technologique. Mais ne confondons pas ces véritables avancées avec la « véritable IA ». Les masters de maîtrise sont peut-être un ingrédient de la formule de la véritable IA, mais ils ne constituent certainement pas la formule complète, et je soupçonne que nous ignorons encore certains des autres ingrédients.
Cumhuriyet