OctoTools : le framework open source de Stanford optimise le raisonnement LLM grâce à une orchestration d'outils modulaires

Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. En savoir plus
OctoTools , une nouvelle plateforme d'agents open source lancée par des scientifiques de l'Université de Stanford, peut booster les grands modèles de langage (LLM) pour les tâches de raisonnement en décomposant les tâches en sous-unités et en améliorant les modèles avec des outils. Alors que l'utilisation d'outils est déjà devenue une application importante des LLM, OctoTools rend ces capacités beaucoup plus accessibles en supprimant les barrières techniques et en permettant aux développeurs et aux entreprises d'étendre une plateforme avec leurs propres outils et flux de travail.
Les expériences montrent qu'OctoTools surpasse les méthodes d'invite classiques et d'autres cadres d'application LLM, ce qui en fait un outil prometteur pour les utilisations réelles des modèles d'IA.
Les LLM ont souvent du mal à réaliser des tâches de raisonnement qui impliquent plusieurs étapes, une décomposition logique ou des connaissances spécialisées dans un domaine. Une solution consiste à externaliser des étapes spécifiques de la solution à des outils externes tels que des calculatrices, des interpréteurs de code, des moteurs de recherche ou des outils de traitement d'images. Dans ce scénario, le modèle se concentre sur la planification de niveau supérieur tandis que le calcul et le raisonnement réels sont effectués via les outils.
Cependant, l’utilisation des outils présente ses propres défis. Par exemple, les LLM classiques nécessitent souvent une formation importante ou un apprentissage ponctuel avec des données organisées pour s’adapter aux nouveaux outils, et une fois augmentés, ils seront limités à des domaines et types d’outils spécifiques.
Le choix des outils reste également un problème. Les LLM peuvent devenir bons dans l'utilisation d'un ou de quelques outils, mais lorsqu'une tâche nécessite l'utilisation de plusieurs outils, ils peuvent être confus et avoir de mauvaises performances.

OctoTools répond à ces problèmes grâce à un cadre d'agents sans formation qui peut orchestrer plusieurs outils sans avoir besoin d'affiner ou d'ajuster les modèles. OctoTools utilise une approche modulaire pour s'attaquer aux tâches de planification et de raisonnement et peut utiliser n'importe quel LLM à usage général comme colonne vertébrale.
Parmi les composants clés d'OctoTools figurent les « cartes d'outils », qui servent d'encapsuleurs pour les outils que le système peut utiliser, tels que les interpréteurs de code Python et les API de recherche Web. Les cartes d'outils incluent des métadonnées telles que les formats d'entrée-sortie, les limitations et les meilleures pratiques pour chaque outil. Les développeurs peuvent ajouter leurs propres cartes d'outils au framework en fonction de leurs applications.
Lorsqu'une nouvelle invite est introduite dans OctoTools, un module « planificateur » utilise le LLM de base pour générer un plan de haut niveau qui résume l'objectif, analyse les compétences requises, identifie les outils pertinents et inclut des considérations supplémentaires pour la tâche. Le planificateur détermine un ensemble de sous-objectifs que le système doit atteindre pour accomplir la tâche et les décrit dans un plan d'action textuel.
Pour chaque étape du plan, un module « prédicteur d’action » affine le sous-objectif pour préciser l’outil nécessaire pour l’atteindre et s’assurer qu’il est exécutable et vérifiable.
Une fois le plan prêt à être exécuté, un « générateur de commandes » mappe le plan textuel au code Python qui appelle les outils spécifiés pour chaque sous-objectif, puis transmet la commande à « l'exécuteur de commandes », qui exécute la commande dans un environnement Python. Les résultats de chaque étape sont validés par un module « vérificateur de contexte » et le résultat final est consolidé par un « récapitulateur de solutions ».

« En séparant la planification stratégique de la génération de commandes, OctoTools réduit les erreurs et augmente la transparence, rendant le système plus fiable et plus facile à entretenir », écrivent les chercheurs.
OctoTools utilise également un algorithme d'optimisation pour sélectionner le meilleur sous-ensemble d'outils pour chaque tâche. Cela permet d'éviter de surcharger le modèle avec des outils non pertinents.
Il existe plusieurs frameworks pour créer des applications LLM et des systèmes d'agents, notamment Microsoft AutoGen , LangChain et OpenAI API « function calling ». OctoTools surpasse ces plateformes sur les tâches qui nécessitent du raisonnement et l'utilisation d'outils, selon ses développeurs.

Les chercheurs ont testé tous les frameworks sur plusieurs benchmarks pour le raisonnement visuel, mathématique et scientifique, ainsi que pour les connaissances médicales et les tâches d'agent. OctoTools a obtenu un gain de précision moyen de 10,6 % par rapport à AutoGen, de 7,5 % par rapport à GPT-Functions et de 7,3 % par rapport à LangChain en utilisant les mêmes outils. Selon les chercheurs, la raison des meilleures performances d'OctoTools est sa distribution d'utilisation des outils supérieure et la décomposition appropriée de la requête en sous-objectifs.
OctoTools offre aux entreprises une solution pratique pour utiliser les LLM pour des tâches complexes. Son intégration d'outils extensibles aidera à surmonter les obstacles existants à la création d'applications de raisonnement IA avancées. Les chercheurs ont publié le code d' OctoTools sur GitHub .
Si vous souhaitez impressionner votre patron, VB Daily a tout ce qu'il vous faut. Nous vous donnons un aperçu de ce que font les entreprises avec l'IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de vous être abonné. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat