Sélectionner la langue

French

Down Icon

Sélectionnez un pays

England

Down Icon

Minimalisme des modèles : la nouvelle stratégie d’IA qui permet aux entreprises d’économiser des millions

Minimalisme des modèles : la nouvelle stratégie d’IA qui permet aux entreprises d’économiser des millions

Cet article fait partie du numéro spécial de VentureBeat, « Le coût réel de l'IA : performances, efficacité et retour sur investissement à grande échelle ». Pour en savoir plus, consultez ce numéro spécial.

L’avènement des grands modèles de langage (LLM) a permis aux entreprises d’envisager plus facilement les types de projets qu’elles peuvent entreprendre, ce qui a conduit à une augmentation des programmes pilotes qui passent désormais au déploiement.

Cependant, à mesure que ces projets ont pris de l’ampleur, les entreprises ont réalisé que les LLM qu’elles avaient utilisés auparavant étaient peu maniables et, pire encore, coûteux.

Entrez dans les petits modèles de langage et la distillation. Des modèles comme la famille Gemma de Google , Phi de Microsoft et Small 3.1 de Mistral ont permis aux entreprises de choisir des modèles rapides et précis, adaptés à des tâches spécifiques. Les entreprises peuvent opter pour un modèle plus petit pour des cas d'utilisation particuliers, ce qui leur permet de réduire le coût d'exploitation de leurs applications d'IA et potentiellement d'obtenir un meilleur retour sur investissement.

Karthik Ramgopal, ingénieur distingué de LinkedIn, a déclaré à VentureBeat que les entreprises optent pour des modèles plus petits pour plusieurs raisons.

« Les modèles plus petits nécessitent moins de calcul, de mémoire et des temps d'inférence plus rapides, ce qui se traduit directement par une réduction des dépenses d'exploitation et d'investissement (OPEX) de l'infrastructure, compte tenu du coût des GPU, de leur disponibilité et de leurs besoins énergétiques », a déclaré Ramgoapl. « Les modèles spécifiques à une tâche ont une portée plus restreinte, ce qui rend leur comportement plus cohérent et plus facile à maintenir dans le temps, sans ingénierie complexe et rapide. »

Les développeurs de modèles fixent le prix de leurs petits modèles en conséquence. o4-mini d'OpenAI coûte 1,1 $ par million de jetons pour les entrées et 4,4 $ par million de jetons pour les sorties, contre 10 $ pour la version complète d'o3 et 40 $ pour les sorties.

Les entreprises disposent aujourd'hui d'un plus large choix de petits modèles, de modèles spécifiques et de modèles compacts . La plupart des modèles phares sont désormais disponibles dans différentes tailles. Par exemple, la gamme Claude d' Anthropic comprend Claude Opus, le plus grand modèle, Claude Sonnet, le modèle polyvalent , et Claude Haiku, la plus petite version. Ces modèles sont suffisamment compacts pour fonctionner sur des appareils portables, tels que des ordinateurs portables ou des téléphones portables.

Lorsqu'on parle de retour sur investissement, la question est toujours la suivante : à quoi ressemble le retour sur investissement ? Faut-il parler du retour sur les coûts engagés ou du gain de temps qui se traduit in fine par des économies financières ? Les experts interrogés par VentureBeat ont indiqué que le retour sur investissement peut être difficile à évaluer, car certaines entreprises pensent avoir déjà atteint ce retour sur investissement en réduisant le temps consacré à une tâche, tandis que d'autres attendent des économies réelles ou un gain de clientèle pour juger de l'efficacité des investissements en IA.

Habituellement, les entreprises calculent le retour sur investissement à l'aide d'une formule simple, comme le décrit Ravi Naarla, responsable technique chez Cognizant, dans un article : ROI = (Avantages-Coûts)/Coûts. Mais avec les programmes d'IA, les avantages ne sont pas immédiatement visibles. Il recommande aux entreprises d'identifier les bénéfices escomptés, de les estimer à partir de données historiques, d'être réalistes quant au coût global de l'IA, incluant le recrutement, la mise en œuvre et la maintenance, et de comprendre qu'il faut s'y engager sur le long terme.

Les experts affirment que les petits modèles réduisent les coûts de mise en œuvre et de maintenance, en particulier lors du réglage fin des modèles pour leur fournir plus de contexte pour votre entreprise.

Arijit Sengupta, fondateur et PDG d' Aible , a déclaré que la manière dont les utilisateurs contextualisent les modèles détermine les économies réalisables. Pour les personnes nécessitant un contexte supplémentaire pour les instructions, comme des instructions longues et complexes, cela peut entraîner des coûts de jetons plus élevés.

« Il faut contextualiser les modèles d'une manière ou d'une autre ; rien n'est gratuit. Mais pour les modèles volumineux, cela se fait généralement en l'insérant dans l'invite », a-t-il expliqué. « Envisagez le réglage fin et le post-entraînement comme une autre façon de contextualiser les modèles. Je pourrais engager des frais de post-entraînement de 100 $, mais ce n'est pas astronomique. »

Sengupta a déclaré avoir constaté une réduction des coûts d'environ 100 fois grâce à la seule formation post-formation, ramenant souvent le coût d'utilisation du modèle « de quelques millions à environ 30 000 dollars ». Il a souligné que ce chiffre inclut les frais d'exploitation du logiciel et le coût permanent du modèle et des bases de données vectorielles.

« En termes de coût de maintenance, si vous le faites manuellement avec des experts humains, cela peut être coûteux à maintenir car les petits modèles doivent être post-entraînés pour produire des résultats comparables aux grands modèles », a-t-il déclaré.

Les expériences menées par Aible ont montré qu'un modèle spécifique à une tâche et affiné fonctionne bien pour certains cas d'utilisation, tout comme les LLM, ce qui démontre que le déploiement de plusieurs modèles spécifiques à un cas d'utilisation plutôt que de grands modèles pour tout faire est plus rentable.

L'entreprise a comparé une version post-entraînée de Llama-3.3-70B-Instruct à une version plus petite du même modèle, avec un paramètre 8B. Le modèle 70B, post-entraîné pour 11,30 $, affichait une précision de 84 % lors des évaluations automatisées et de 92 % lors des évaluations manuelles. Une fois affiné à un coût de 4,58 $, le modèle 8B a atteint une précision de 82 % lors des évaluations manuelles, ce qui serait adapté à des cas d'utilisation plus mineurs et plus ciblés.

Le dimensionnement optimal des modèles ne doit pas nécessairement se faire au détriment des performances. Aujourd'hui, les entreprises comprennent que le choix d'un modèle ne se limite pas à choisir entre GPT-4o et Llama-3.1 ; il s'agit de savoir que certains cas d'utilisation, comme la synthèse ou la génération de code, sont mieux servis par un modèle réduit .

Daniel Hoske, directeur technique chez Cresta, fournisseur de produits d'IA pour centres de contact, a déclaré que le fait de commencer le développement avec des LLM permet de mieux informer sur les économies de coûts potentielles.

« Vous devriez commencer par le plus grand modèle pour voir si ce que vous envisagez fonctionne, car si cela ne fonctionne pas avec le plus grand modèle, cela ne signifie pas que cela fonctionnera avec des modèles plus petits », a-t-il déclaré.

Ramgopal a déclaré que LinkedIn suit un modèle similaire car le prototypage est le seul moyen par lequel ces problèmes peuvent commencer à émerger.

« Notre approche habituelle pour les cas d'utilisation agentique commence par des LLM à usage général, car leur grande généralisation nous permet de prototyper rapidement, de valider des hypothèses et d'évaluer l'adéquation produit-marché », a déclaré Ramgopal de LinkedIn. « À mesure que le produit mûrit et que nous rencontrons des contraintes de qualité, de coût ou de latence, nous évoluons vers des solutions plus personnalisées. »

Lors de la phase d'expérimentation, les organisations peuvent déterminer ce qu'elles apprécient le plus dans leurs applications d'IA. Cette analyse permet aux développeurs de mieux planifier les économies à réaliser et de sélectionner la taille de modèle la mieux adaptée à leurs objectifs et à leur budget.

Les experts ont averti que, même s'il est important de construire avec des modèles qui fonctionnent au mieux avec ce qu'ils développent, les LLM à paramètres élevés seront toujours plus coûteux. Les modèles volumineux nécessiteront toujours une puissance de calcul importante.

Cependant, l'utilisation excessive de modèles compacts et spécifiques à des tâches pose également problème. Rahul Pathak, vice-président des données et de l'IA GTM chez AWS , a déclaré dans un article de blog que l'optimisation des coûts ne repose pas uniquement sur l'utilisation d'un modèle nécessitant peu de puissance de calcul, mais plutôt sur l'adéquation d'un modèle aux tâches. Les modèles plus petits peuvent ne pas disposer d'une fenêtre contextuelle suffisamment large pour comprendre des instructions plus complexes, ce qui entraîne une charge de travail accrue pour les employés et des coûts plus élevés.

Sengupta a également averti que certains modèles distillés pourraient être cassants, de sorte qu'une utilisation à long terme pourrait ne pas entraîner d'économies.

Quelle que soit la taille du modèle, les acteurs du secteur ont mis l'accent sur la flexibilité nécessaire pour répondre à d'éventuels problèmes ou à de nouveaux cas d'utilisation. Ainsi, si elles commencent par un grand modèle, puis par un modèle plus petit offrant des performances similaires, voire supérieures, et un coût inférieur, les entreprises ne peuvent pas se permettre de se fier au modèle choisi.

Tessa Burg, directrice technique et responsable de l'innovation chez Mod Op , une société de marketing de marque, a déclaré à VentureBeat que les organisations doivent comprendre que tout ce qu'elles construisent maintenant sera toujours remplacé par une meilleure version.

« Nous sommes partis du principe que la technologie sous-jacente aux workflows que nous créons et aux processus que nous améliorons va évoluer. Nous savions que quel que soit le modèle que nous utiliserons, ce sera la pire version possible. »

Burg a déclaré que les modèles plus petits permettaient à son entreprise et à ses clients de gagner du temps dans la recherche et le développement de concepts. Ce gain de temps, a-t-elle ajouté, se traduit par des économies budgétaires à long terme. Elle a ajouté qu'il était judicieux de cibler les cas d'utilisation coûteux et fréquents pour les modèles légers.

Sengupta a noté que les fournisseurs facilitent désormais le changement automatique entre les modèles, mais a averti les utilisateurs de trouver des plateformes qui facilitent également le réglage fin, afin de ne pas encourir de coûts supplémentaires.

venturebeat

venturebeat

Nouvelles similaires

Toutes les actualités
Animated ArrowAnimated ArrowAnimated Arrow