Des LLM aux hallucinations, voici un guide simple des termes courants de l'IA

L'intelligence artificielle est un monde complexe et complexe. Les scientifiques qui y travaillent ont souvent recours au jargon et au jargon technique pour expliquer leurs travaux. Par conséquent, nous utilisons fréquemment ces termes techniques dans nos articles sur le secteur de l'intelligence artificielle. C'est pourquoi nous avons pensé qu'il serait utile de créer un glossaire reprenant les définitions des mots et expressions les plus importants que nous utilisons dans nos articles.
Nous mettrons régulièrement à jour ce glossaire pour ajouter de nouvelles entrées à mesure que les chercheurs découvrent continuellement de nouvelles méthodes pour repousser les frontières de l'intelligence artificielle tout en identifiant les risques de sécurité émergents.
L'intelligence artificielle générale, ou IA, est un terme nébuleux. Mais il désigne généralement une IA plus performante que l'humain moyen dans de nombreuses tâches, voire la plupart. Sam Altman, PDG d'OpenAI, a récemment décrit l'IA comme « l'équivalent d'un humain moyen que l'on pourrait embaucher comme collègue ». La charte d'OpenAI définit l'IA comme « des systèmes hautement autonomes qui surpassent les humains dans les tâches les plus rentables ». La compréhension de Google DeepMind diffère légèrement de ces deux définitions ; le laboratoire considère l'IA comme « une IA au moins aussi performante que l'humain dans la plupart des tâches cognitives ». Perplexe ? Pas d'inquiétude ; les experts à la pointe de la recherche en IA le sont aussi .
Un agent IA est un outil qui utilise les technologies de l'IA pour effectuer une série de tâches pour vous – au-delà de ce qu'un chatbot IA plus basique pourrait faire – comme déclarer des dépenses, réserver des billets ou une table au restaurant, ou même écrire et maintenir du code. Cependant, comme nous l'avons expliqué précédemment , de nombreux éléments sont en mouvement dans ce domaine émergent ; le terme « agent IA » peut donc avoir des significations différentes selon les personnes. L'infrastructure est également en cours de développement pour offrir les capacités prévues. Cependant, le concept de base implique un système autonome capable de s'appuyer sur plusieurs systèmes d'IA pour effectuer des tâches en plusieurs étapes.
Face à une question simple, un cerveau humain peut répondre sans même trop y réfléchir – par exemple : « Quel animal est le plus grand, une girafe ou un chat ? » Mais dans de nombreux cas, il faut souvent du papier et un stylo pour trouver la bonne réponse, car il y a des étapes intermédiaires. Par exemple, si un agriculteur possède des poules et des vaches, et qu'elles ont ensemble 40 têtes et 120 pattes, il faudra peut-être écrire une équation simple pour trouver la réponse (20 poules et 20 vaches).
Dans un contexte d'IA, le raisonnement par chaîne de pensée pour les grands modèles de langage consiste à décomposer un problème en étapes intermédiaires plus petites afin d'améliorer la qualité du résultat final. Obtenir une réponse prend généralement plus de temps, mais elle a plus de chances d'être correcte, surtout dans un contexte de logique ou de codage. Les modèles de raisonnement sont développés à partir de grands modèles de langage traditionnels et optimisés pour la réflexion par chaîne de pensée grâce à l'apprentissage par renforcement.
(Voir : Grand modèle de langage )
Événement Techcrunch
Berkeley, Californie | 5 juin
INSCRIVEZ-VOUS MAINTENANTSous-ensemble de l'apprentissage automatique auto-amélioré, les algorithmes d'IA sont conçus selon une structure multicouche de réseau de neurones artificiels (RNA). Cela leur permet d'établir des corrélations plus complexes que les systèmes plus simples basés sur l'apprentissage automatique, tels que les modèles linéaires ou les arbres de décision. La structure des algorithmes d'apprentissage profond s'inspire des voies interconnectées des neurones du cerveau humain.
Les modèles d'IA d'apprentissage profond sont capables d'identifier eux-mêmes les caractéristiques importantes des données, sans nécessiter la définition de ces caractéristiques par des ingénieurs humains. Cette structure prend également en charge les algorithmes capables d'apprendre de leurs erreurs et, par un processus de répétition et d'ajustement, d'améliorer leurs propres résultats. Cependant, les systèmes d'apprentissage profond nécessitent un grand nombre de points de données pour produire de bons résultats (des millions ou plus). Leur apprentissage est généralement plus long que celui des algorithmes d'apprentissage automatique plus simples, ce qui entraîne des coûts de développement généralement plus élevés.
(Voir : Réseau neuronal )
La diffusion est la technologie au cœur de nombreux modèles d'IA générant de l'art, de la musique et du texte. Inspirés par la physique, les systèmes de diffusion « détruisent » lentement la structure des données (photos, chansons, etc.) en ajoutant du bruit jusqu'à ce qu'il n'en reste plus rien. En physique, la diffusion est spontanée et irréversible : le sucre diffusé dans le café ne peut pas être restitué sous forme de cube. Mais les systèmes de diffusion en IA visent à apprendre une sorte de processus de « diffusion inverse » pour restaurer les données détruites, acquérant ainsi la capacité de les récupérer à partir du bruit.
La distillation est une technique utilisée pour extraire des connaissances d'un grand modèle d'IA basé sur un modèle « enseignant-élève ». Les développeurs envoient des requêtes à un modèle enseignant et enregistrent les résultats. Les réponses sont parfois comparées à un ensemble de données pour en évaluer la précision. Ces résultats servent ensuite à entraîner le modèle élève, qui est lui-même entraîné à reproduire le comportement de l'enseignant.
La distillation permet de créer un modèle plus petit et plus efficace, basé sur un modèle plus grand, avec une perte de distillation minimale. C'est probablement ainsi qu'OpenAI a développé GPT-4 Turbo, une version plus rapide de GPT-4.
Bien que toutes les entreprises d'IA utilisent la distillation en interne, certaines d'entre elles l'ont peut-être également utilisée pour rattraper leur retard sur les modèles de pointe. La distillation d'un concurrent enfreint généralement les conditions d'utilisation de l'API d'IA et des assistants de chat.
Il s’agit de la formation complémentaire d’un modèle d’IA pour optimiser les performances d’une tâche ou d’un domaine plus spécifique que celui qui était auparavant un point central de sa formation — généralement en alimentant de nouvelles données spécialisées (c’est-à-dire axées sur les tâches).
De nombreuses startups d'IA utilisent de grands modèles de langage comme point de départ pour créer un produit commercial, mais cherchent à accroître l'utilité d'un secteur ou d'une tâche cible en complétant les cycles de formation antérieurs par des ajustements basés sur leurs propres connaissances et expertises spécifiques au domaine.
(Voir : Grand modèle de langage [LLM] )
Un GAN, ou Generative Adversarial Network, est un type de framework d'apprentissage automatique qui sous-tend d'importantes avancées en IA générative pour la production de données réalistes, notamment (mais pas seulement) les outils de deepfake. Les GAN utilisent deux réseaux neuronaux, dont l'un s'appuie sur ses données d'entraînement pour générer un résultat transmis à l'autre modèle pour évaluation. Ce second modèle discriminateur joue ainsi le rôle de classificateur sur le résultat du générateur, lui permettant de s'améliorer au fil du temps.
La structure du GAN est conçue comme une compétition (d'où son nom « adversarial ») : les deux modèles sont programmés pour rivaliser : le générateur tente de faire passer sa sortie devant le discriminateur, tandis que ce dernier s'efforce de repérer les données générées artificiellement. Cette compétition structurée permet d'optimiser les sorties de l'IA pour les rendre plus réalistes, sans intervention humaine supplémentaire. Cependant, les GAN sont plus adaptés à des applications plus spécifiques (comme la production de photos ou de vidéos réalistes) qu'à une IA généraliste.
L'hallucination est le terme privilégié par l'industrie de l'IA pour désigner les modèles d'IA qui inventent des choses, générant littéralement des informations erronées. Il s'agit évidemment d'un problème majeur pour la qualité de l'IA.
Les hallucinations produisent des résultats GenAI qui peuvent être trompeurs et même entraîner des risques réels, avec des conséquences potentiellement dangereuses (pensez à une requête médicale renvoyant un avis médical préjudiciable). C'est pourquoi la plupart des outils GenAI recommandent désormais aux utilisateurs de vérifier les réponses générées par l'IA, même si ces avertissements sont généralement bien moins visibles que les informations que les outils diffusent d'une simple pression sur un bouton.
On pense que le problème de la fabrication d'informations par les IA résulte de lacunes dans les données d'entraînement. Pour l'IA générale, en particulier – parfois appelée modèles fondateurs –, ce problème semble difficile à résoudre. Il n'existe tout simplement pas assez de données pour entraîner les modèles d'IA à répondre de manière exhaustive à toutes les questions que nous pourrions nous poser. En résumé : nous n'avons pas (encore) inventé Dieu.
Les hallucinations contribuent à une poussée vers des modèles d’IA de plus en plus spécialisés et/ou verticaux – c’est-à-dire des IA spécifiques à un domaine qui nécessitent une expertise plus étroite – comme moyen de réduire la probabilité de lacunes dans les connaissances et de réduire les risques de désinformation.
L'inférence est le processus d'exécution d'un modèle d'IA. Il s'agit de laisser un modèle libre de formuler des prédictions ou de tirer des conclusions à partir de données déjà observées. En clair, l'inférence ne peut se faire sans entraînement ; un modèle doit apprendre des schémas dans un ensemble de données avant de pouvoir extrapoler efficacement à partir de ces données d'entraînement.
De nombreux types de matériels peuvent effectuer des inférences, des processeurs de smartphones aux puissants GPU en passant par les accélérateurs d'IA sur mesure. Mais tous ne peuvent pas exécuter des modèles avec la même efficacité. Des modèles très volumineux mettraient un temps fou à réaliser des prédictions, par exemple sur un ordinateur portable ou sur un serveur cloud équipé de puces d'IA haut de gamme.
[Voir : Formation ]
Les grands modèles de langage (MLL) sont les modèles d'IA utilisés par les assistants IA les plus populaires, tels que ChatGPT , Claude , Gemini de Google , AI Llama de Meta , Microsoft Copilot ou Le Chat de Mistral . Lorsque vous discutez avec un assistant IA, vous interagissez avec un grand modèle de langage qui traite votre requête directement ou à l'aide de différents outils disponibles, tels que la navigation web ou des interpréteurs de code.
Les assistants IA et les LLM peuvent porter des noms différents. Par exemple, GPT désigne le modèle de langage étendu d'OpenAI et ChatGPT le produit d'assistant IA.
Les LLM sont des réseaux neuronaux profonds constitués de milliards de paramètres numériques ( ou poids, voir ci-dessous ) qui apprennent les relations entre les mots et les phrases et créent une représentation du langage, une sorte de carte multidimensionnelle des mots.
Ces modèles sont créés à partir du codage des modèles trouvés dans des milliards de livres, d'articles et de transcriptions. Lorsque vous proposez un LLM, le modèle génère le modèle le plus probable correspondant à la proposition. Il évalue ensuite le mot suivant le plus probable en fonction de ce qui a été dit précédemment. Répétez, répétez, répétez.
(Voir : Réseau neuronal )
Un réseau neuronal fait référence à la structure algorithmique multicouche qui sous-tend l’apprentissage profond — et, plus largement, l’essor des outils d’IA générative suite à l’émergence de grands modèles linguistiques.
Bien que l'idée de s'inspirer des voies cérébrales densément interconnectées pour concevoir des algorithmes de traitement de données remonte aux années 1940, c'est l'essor beaucoup plus récent des processeurs graphiques (GPU) – via l'industrie du jeu vidéo – qui a véritablement révélé toute la puissance de cette théorie. Ces puces se sont révélées particulièrement adaptées à l'entraînement d'algorithmes comportant beaucoup plus de couches qu'auparavant, permettant ainsi aux systèmes d'IA basés sur des réseaux neuronaux d'atteindre des performances bien supérieures dans de nombreux domaines, notamment la reconnaissance vocale, la navigation autonome et la découverte de médicaments.
(Voir : Grand modèle de langage [LLM] )
Le développement d'IA basées sur l'apprentissage automatique implique un processus appelé « entraînement ». En termes simples, il s'agit d'alimenter le modèle en données afin qu'il puisse apprendre des modèles et générer des résultats utiles.
À ce stade de l'IA, les choses peuvent devenir un peu philosophiques, car, avant l'entraînement, la structure mathématique utilisée comme point de départ pour développer un système d'apprentissage n'est qu'un ensemble de couches et de nombres aléatoires. C'est seulement grâce à l'entraînement que le modèle d'IA prend véritablement forme. En substance, c'est le processus par lequel le système réagit aux caractéristiques des données qui lui permet d'adapter les résultats à un objectif recherché, qu'il s'agisse d'identifier des images de chats ou de produire un haïku à la demande.
Il est important de noter que toutes les IA ne nécessitent pas d'entraînement. Les IA basées sur des règles, programmées pour suivre des instructions prédéfinies manuellement (par exemple, les chatbots linéaires), n'ont pas besoin d'entraînement. Cependant, ces systèmes d'IA sont susceptibles d'être plus contraints que les systèmes auto-apprenants (bien entraînés).
Cependant, la formation peut être coûteuse car elle nécessite de nombreux intrants – et, généralement, les volumes d’intrants requis pour de tels modèles ont tendance à augmenter.
Des approches hybrides peuvent parfois être utilisées pour raccourcir le développement de modèles et contribuer à la maîtrise des coûts. Par exemple, l'optimisation d'une IA basée sur des règles, pilotée par les données, nécessite moins de données, de calcul, d'énergie et de complexité algorithmique que si le développeur avait commencé à construire de toutes pièces.
[Voir : Inférence ]
Une technique dans laquelle un modèle d’IA précédemment formé est utilisé comme point de départ pour développer un nouveau modèle pour une tâche différente mais généralement liée – permettant de réappliquer les connaissances acquises lors des cycles de formation précédents.
L'apprentissage par transfert peut générer des gains d'efficacité en raccourcissant le développement du modèle. Il peut également s'avérer utile lorsque les données nécessaires à la tâche pour laquelle le modèle est développé sont limitées. Il est toutefois important de noter que cette approche présente des limites. Les modèles qui s'appuient sur l'apprentissage par transfert pour acquérir des capacités généralisées nécessiteront probablement un entraînement sur des données supplémentaires pour fonctionner correctement dans leur domaine d'intérêt.
(Voir : Réglage fin )
Les pondérations sont essentielles à la formation de l'IA, car elles déterminent l'importance (ou le poids) accordée aux différentes fonctionnalités (ou variables d'entrée) dans les données utilisées pour la formation du système, façonnant ainsi la sortie du modèle d'IA.
Autrement dit, les pondérations sont des paramètres numériques qui définissent les éléments les plus importants d'un ensemble de données pour la tâche d'apprentissage donnée. Leur fonction est d'appliquer une multiplication aux entrées. L'apprentissage d'un modèle commence généralement par des pondérations attribuées aléatoirement, mais au fil du processus, les pondérations s'ajustent, le modèle cherchant à obtenir une sortie plus proche de la cible.
Par exemple, un modèle d'IA permettant de prédire les prix des logements, formé sur des données immobilières historiques pour un emplacement cible, pourrait inclure des pondérations pour des caractéristiques telles que le nombre de chambres et de salles de bains, si une propriété est individuelle ou jumelée, si elle dispose d'un parking, d'un garage, etc.
En fin de compte, les pondérations que le modèle attache à chacune de ces entrées reflètent leur influence sur la valeur d’une propriété, en fonction de l’ensemble de données donné.
techcrunch