Le piège de l'inférence : comment les fournisseurs de cloud grignotent vos marges d'IA

Cet article fait partie du numéro spécial de VentureBeat, « Le coût réel de l'IA : performances, efficacité et retour sur investissement à grande échelle ». Pour en savoir plus, consultez ce numéro spécial.
L'IA est devenue le Saint Graal des entreprises modernes. Qu'il s'agisse du service client ou d'un domaine aussi spécialisé que la maintenance des pipelines, les organisations de tous les secteurs mettent désormais en œuvre des technologies d'IA — des modèles de base aux VLA — pour gagner en efficacité. L'objectif est simple : automatiser les tâches pour obtenir des résultats plus efficacement tout en économisant de l'argent et des ressources.
Cependant, lorsque ces projets passent du stade pilote à celui de production, les équipes se heurtent à un obstacle imprévu : les coûts du cloud érodent leurs marges. Le choc est tel que ce qui semblait être la voie la plus rapide vers l'innovation et l'avantage concurrentiel se transforme en un gouffre budgétaire intenable, et ce, en un rien de temps.
Cela incite les DSI à tout repenser, de l'architecture des modèles aux modèles de déploiement, pour reprendre le contrôle des aspects financiers et opérationnels. Parfois, ils vont même jusqu'à abandonner complètement les projets et à tout recommencer de zéro.
Mais le fait est que si le cloud peut engendrer des coûts exorbitants, il n'en est pas le principal responsable. Il suffit de comprendre quel type de véhicule (infrastructure d'IA) choisir pour quelle charge de travail.
L'histoire du cloud — et où cela fonctionneLe cloud est très similaire aux transports en commun (métros et bus). Vous embarquez avec un modèle de location simple, et il vous fournit instantanément toutes les ressources – des instances GPU à la mise à l'échelle rapide sur différentes zones géographiques – pour vous emmener à destination, le tout avec un minimum de travail et de configuration.
L'accès rapide et facile via un modèle de service garantit un démarrage en douceur, ouvrant la voie au lancement du projet et à une expérimentation rapide sans les énormes dépenses d'investissement initiales liées à l'acquisition de GPU spécialisés.
La plupart des startups en phase de démarrage trouvent ce modèle lucratif car elles ont besoin d'un délai d'exécution rapide plus que toute autre chose, en particulier lorsqu'elles sont encore en train de valider le modèle et de déterminer l'adéquation produit-marché.
« Il suffit de créer un compte, de cliquer sur quelques boutons et d'accéder aux serveurs. Si vous avez besoin d'une taille de GPU différente, il suffit d'arrêter et de redémarrer l'instance avec les nouvelles spécifications, ce qui ne prend que quelques minutes. Pour réaliser deux expériences simultanément, il faut initialiser deux instances distinctes. Au début, l'accent est mis sur la validation rapide des idées. L'utilisation des frameworks de mise à l'échelle et d'expérimentation intégrés à la plupart des plateformes cloud permet de réduire les délais entre les étapes clés », a déclaré Rohan Sarin, responsable des produits d'IA vocale chez Speechmatics , à VentureBeat.
Si le cloud est parfaitement adapté aux premières phases d'utilisation, les calculs d'infrastructure deviennent complexes lorsque le projet passe des tests et de la validation aux volumes réels. L'ampleur des charges de travail rend les factures exorbitantes, à tel point que les coûts peuvent grimper de plus de 1 000 % du jour au lendemain.
Cela est particulièrement vrai dans le cas de l’inférence, qui doit non seulement fonctionner 24 heures sur 24, 7 jours sur 7 pour garantir la disponibilité du service, mais également s’adapter à la demande des clients.
Dans la plupart des cas, explique Sarin, la demande d'inférence atteint des pics lorsque d'autres clients sollicitent également l'accès au GPU, ce qui accroît la concurrence pour les ressources. Dans ce cas, les équipes conservent une capacité réservée pour s'assurer d'obtenir ce dont elles ont besoin (ce qui entraîne des temps d'inactivité du GPU en dehors des heures de pointe) ou subissent des latences, impactant l'expérience en aval.
Christian Khoury, PDG de la plateforme de conformité IA EasyAudit AI , a décrit l'inférence comme la nouvelle « taxe sur le cloud », déclarant à VentureBeat qu'il avait vu des entreprises passer de 5 000 $ à 50 000 $ par mois du jour au lendemain, simplement grâce au trafic d'inférence.
Il convient également de noter que les charges de travail d'inférence impliquant des LLM, dont la tarification est basée sur des jetons, peuvent entraîner les plus fortes augmentations de coûts. En effet, ces modèles sont non déterministes et peuvent générer des résultats différents lors du traitement de tâches longues (impliquant de grandes fenêtres contextuelles). Avec des mises à jour continues, il devient très difficile de prévoir ou de contrôler les coûts d'inférence des LLM.
L'entraînement de ces modèles, quant à lui, se déroule en « sauts » (par groupes), ce qui laisse une marge de manœuvre pour la planification des capacités. Cependant, même dans ces cas, notamment face à une concurrence croissante qui impose des réentraînements fréquents, les entreprises peuvent se retrouver avec des factures exorbitantes liées au temps d'inactivité des GPU, dû au surprovisionnement.
« Les crédits de formation sur les plateformes cloud sont coûteux, et les réentraînements fréquents lors des cycles d'itération rapides peuvent rapidement faire grimper les coûts. Les longues sessions de formation nécessitent l'accès à des machines de grande capacité, et la plupart des fournisseurs de cloud ne garantissent cet accès que si vous réservez de la capacité pour un an ou plus. Si votre session de formation ne dure que quelques semaines, vous payez quand même pour le reste de l'année », explique Sarin.
Et ce n'est pas tout. Le verrouillage du cloud est bien réel. Imaginez que vous ayez effectué une réservation à long terme et acheté des crédits auprès d'un fournisseur. Dans ce cas, vous êtes prisonnier de son écosystème et devez utiliser tout ce qu'il propose, même lorsque d'autres fournisseurs ont migré vers une infrastructure plus récente et plus performante. Enfin, lorsque vous aurez la possibilité de migrer, vous devrez peut-être supporter des frais de sortie exorbitants.
« Ce n'est pas seulement une question de coût de calcul. On assiste à une mise à l'échelle automatique imprévisible et à des frais de sortie exorbitants si l'on déplace des données entre régions ou fournisseurs. Une équipe payait plus cher pour déplacer des données que pour entraîner ses modèles », a souligné Sarin.
Compte tenu de la demande constante d'infrastructure pour l'inférence de l'IA à grande échelle et de la nature explosive de la formation, les entreprises se tournent vers la répartition des charges de travail, en transférant l'inférence vers des piles de colocation ou sur site, tout en laissant la formation au cloud avec des instances ponctuelles.
Il ne s’agit pas seulement d’une théorie : c’est un mouvement croissant parmi les dirigeants de l’ingénierie qui tentent de mettre l’IA en production sans brûler les pistes.
« Nous avons aidé des équipes à migrer vers la colocation pour l'inférence, en utilisant des serveurs GPU dédiés qu'elles contrôlent. Ce n'est pas très attrayant, mais cela réduit les dépenses mensuelles d'infrastructure de 60 à 80 % », a ajouté Khoury. « L'hybride est non seulement plus économique, mais aussi plus intelligent. »
Dans un cas, a-t-il expliqué, une entreprise SaaS a réduit sa facture mensuelle d'infrastructure d'IA d'environ 42 000 dollars à seulement 9 000 dollars en déplaçant les charges de travail d'inférence hors du cloud. Cette transition a été rentabilisée en moins de deux semaines.
Une autre équipe, qui avait besoin de réponses constantes inférieures à 50 ms pour un outil d'assistance client basé sur l'IA, a constaté que la latence d'inférence basée sur le cloud était insuffisante. Le rapprochement de l'inférence des utilisateurs via la colocation a non seulement résolu le problème de performance, mais a également divisé par deux les coûts.
La configuration fonctionne généralement ainsi : l'inférence, active en permanence et sensible à la latence, s'exécute sur des GPU dédiés, sur site ou dans un centre de données à proximité (colocation). L'entraînement, quant à lui, gourmand en ressources de calcul mais sporadique, reste dans le cloud, où vous pouvez créer de puissants clusters à la demande, les exécuter pendant quelques heures ou quelques jours, puis les arrêter.
D’une manière générale, on estime que la location auprès de fournisseurs de cloud hyperscale peut coûter trois à quatre fois plus cher par heure de GPU que de travailler avec des fournisseurs plus petits, la différence étant encore plus importante par rapport à l’infrastructure sur site.
L’autre grand avantage ? La prévisibilité.
Grâce aux stacks sur site ou en colocation, les équipes ont également un contrôle total sur le nombre de ressources à provisionner ou à ajouter pour les charges de travail d'inférence de base prévues. Cela permet de prédire les coûts d'infrastructure et d'éviter les factures surprises. Cela réduit également les efforts d'ingénierie intensifs pour optimiser la scalabilité et maintenir les coûts de l'infrastructure cloud à un niveau raisonnable.
Les configurations hybrides contribuent également à réduire la latence des applications d’IA sensibles au temps et permettent une meilleure conformité, en particulier pour les équipes opérant dans des secteurs hautement réglementés comme la finance, la santé et l’éducation, où la résidence et la gouvernance des données ne sont pas négociables.
Comme toujours, le passage à une configuration hybride s'accompagne de coûts d'exploitation. Installer son propre matériel ou louer un centre de colocation prend du temps, et gérer des GPU hors cloud requiert une expertise technique particulière.
Cependant, les dirigeants affirment que la complexité est souvent surestimée et qu’elle est généralement gérable en interne ou grâce à un soutien externe, à moins que l’on n’opère à une échelle extrême.
« Nos calculs montrent qu'un serveur GPU sur site coûte environ le même prix que six à neuf mois de location d'une instance équivalente auprès d'AWS, d'Azure ou de Google Cloud, même avec un tarif de réservation d'un an. Comme le matériel dure généralement au moins trois ans, et souvent plus de cinq, cela devient rentable dès les neuf premiers mois. Certains fournisseurs de matériel proposent également des modèles de tarification opérationnelle pour les infrastructures d'investissement, ce qui permet d'éviter un paiement initial si la trésorerie est un problème », explique Sarin.
Pour toute entreprise, qu’il s’agisse d’une startup ou d’une grande entreprise, la clé du succès lors de l’architecture – ou de la réarchitecture – de l’infrastructure d’IA réside dans le fait de travailler en fonction des charges de travail spécifiques à accomplir.
Si vous avez des doutes sur la charge de travail des différentes charges de travail d'IA, commencez par le cloud et surveillez attentivement les coûts associés en associant chaque ressource à l'équipe responsable. Vous pouvez partager ces rapports de coûts avec tous les responsables et analyser en détail leur utilisation et son impact sur les ressources. Ces données apporteront une clarté et contribueront à optimiser l'efficacité.
Cela dit, n’oubliez pas qu’il ne s’agit pas d’abandonner complètement le cloud ; il s’agit d’optimiser son utilisation pour maximiser l’efficacité.
« Le cloud reste idéal pour l'expérimentation et la formation intensive. Mais si l'inférence est votre principale charge de travail, laissez tomber le loyer. L'hybride n'est pas seulement moins cher… c'est plus intelligent », a ajouté Khoury. « Considérez le cloud comme un prototype, pas comme un emplacement permanent. Faites le calcul. Discutez avec vos ingénieurs. Le cloud ne vous dira jamais s'il est le mauvais outil. Mais votre facture AWS, si. »
venturebeat