Le pari de Google sur le « modèle mondial » : construire la couche opérationnelle de l'IA avant que Microsoft ne capture l'interface utilisateur

Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières actualités et des contenus exclusifs sur les sujets de pointe en IA. En savoir plus
Après trois heures passées à l'événement Google I/O 2025 la semaine dernière dans la Silicon Valley, une évidence s'est imposée : Google concentre ses efforts considérables en matière d'IA – visiblement commercialisés sous le nom Gemini, mais englobant une gamme diversifiée d'architectures de modèles et de recherches sous-jacentes – avec une concentration extrême. L'entreprise lance une multitude d'innovations et de technologies autour de cette initiative, qu'elle intègre ensuite à ses produits à un rythme effréné.
Au-delà des fonctionnalités qui font la une des journaux, Google a affiché une ambition plus audacieuse : un système d'exploitation pour l'ère de l'IA – non pas un système à démarrage sur disque dur, mais une couche logique exploitable par toutes les applications – un « modèle mondial » destiné à alimenter un assistant universel capable de comprendre notre environnement physique, de raisonner et d'agir en notre nom. C'est une offensive stratégique que beaucoup d'observateurs ont peut-être manquée au milieu de la confusion des fonctionnalités.
D'un côté, il s'agit d'une stratégie à enjeux élevés visant à devancer des concurrents bien établis. Mais de l'autre, alors que Google investit des milliards dans cette ambition, une question cruciale se pose : l'excellence de Google en matière de recherche et de technologie en IA peut-elle se traduire en produits plus rapidement que celle de ses concurrents, dont l'avantage réside dans sa capacité à intégrer l'IA dans des produits immédiatement accessibles et commercialement performants ? Google peut-il surpasser un Microsoft ultra-conscient, repousser les ambitions matérielles verticales d'OpenAI et, surtout, maintenir son propre empire de recherche en vie dans les courants disruptifs de l'IA ?
Google poursuit déjà cet avenir à une échelle vertigineuse. Pichai a déclaré à I/O que l'entreprise traite désormais 480 000 milliards de jetons par mois, soit 50 fois plus qu'il y a un an, et près de 5 fois plus que les 100 000 milliards de jetons traités par mois par Satya Nadella de Microsoft. Cette dynamique se reflète également dans l'adoption par les développeurs : Pichai indique que plus de 7 millions de développeurs utilisent désormais l'API Gemini, soit une multiplication par cinq depuis la dernière I/O, tandis que l'utilisation de Gemini sur Vertex AI a été multipliée par plus de 40. De plus, les coûts unitaires continuent de baisser, les modèles Gemini 2.5 et Ironwood TPU tirant davantage de performances de chaque watt et de chaque dollar. AI Mode (en cours de déploiement aux États-Unis) et AI Overviews (qui dessert déjà 1,5 milliard d'utilisateurs par mois) sont les bancs d'essai en direct où Google ajuste la latence, la qualité et les futurs formats publicitaires, alors que la recherche entre dans l'ère de l'IA.

Le renforcement par Google de ce qu'il appelle un « modèle mondial » – une IA qu'il souhaite doter d'une compréhension approfondie des dynamiques du monde réel – et, partant, de sa vision d'un assistant universel, propulsé par Google et non par d'autres entreprises – crée une autre tension majeure : quel contrôle Google souhaite-t-il exercer sur cet assistant omniscient, construit sur son fleuron, la recherche ? Souhaite-t-il d'abord l'exploiter pour lui-même, afin de préserver son activité de recherche de 200 milliards de dollars, qui dépend de la maîtrise du point de départ et de la protection contre les perturbations d'OpenAI ? Ou Google ouvrira-t-il pleinement son IA fondamentale à d'autres développeurs et entreprises, un autre segment représentant une part significative de son activité, mobilisant plus de 20 millions de développeurs, plus que toute autre entreprise ?
L'entreprise s'est parfois abstenue de se concentrer radicalement sur le développement de ces produits phares pour d'autres, avec la même clarté que son ennemi juré, Microsoft. En effet, elle réserve de nombreuses fonctionnalités essentielles à son moteur de recherche préféré. Cela dit, Google déploie des efforts considérables pour offrir un accès aux développeurs partout où cela est possible. Le projet Mariner en est un exemple éloquent. Google aurait pu intégrer les fonctionnalités d'automatisation agentique du navigateur directement dans Chrome, offrant ainsi aux consommateurs une vitrine immédiate sous son contrôle total. Cependant, Google a ensuite annoncé que les fonctionnalités d'utilisation informatique de Mariner seraient déployées plus largement via l'API Gemini « cet été ». Cela indique qu'un accès externe est prévu pour tout concurrent souhaitant une automatisation comparable. Google a d'ailleurs indiqué que ses partenaires Automation Anywhere et UiPath l'utilisaient déjà.
L'explication la plus claire du grand projet de Google est venue de Demis Hassabis, PDG de Google DeepMind, lors de la keynote de l'I/O. Il a déclaré que Google continuait de « redoubler d'efforts » en matière d'intelligence artificielle générale (IAG). Si Gemini était déjà « le meilleur modèle multimodal », a expliqué Hassabis, Google travaille d'arrache-pied pour « l'étendre jusqu'à devenir ce que nous appelons un modèle mondial. C'est-à-dire un modèle capable de planifier et d'imaginer de nouvelles expériences en simulant des aspects du monde, à la manière du cerveau. »
Ce concept de « modèle du monde », tel qu'exprimé par Hassabis, vise à créer une IA capable d'apprendre les principes fondamentaux du fonctionnement du monde : simuler les relations de cause à effet, comprendre la physique intuitive et, finalement, apprendre par l'observation, à la manière d'un humain. Un indicateur précoce, peut-être facilement négligé par ceux qui ne sont pas familiarisés avec la recherche fondamentale en IA, mais pourtant significatif de cette orientation est le travail de Google DeepMind sur des modèles comme Genie 2. Cette recherche montre comment générer des environnements de jeu interactifs en deux dimensions et des mondes jouables à partir de données variées comme des images ou du texte. Elle offre un aperçu d'une IA capable de simuler et de comprendre des systèmes dynamiques.
Hassabis a développé ce concept de « modèle mondial » et sa concrétisation en tant qu'« assistant IA universel » lors de plusieurs conférences depuis fin 2024. Ce concept a été présenté de manière très complète lors de l'I/O, le PDG Sundar Pichai et le directeur de Gemini Josh Woodward reprenant cette vision sur la même scène. (Alors que d'autres leaders de l'IA, dont Satya Nadella de Microsoft, Sam Altman d'OpenAI et Elon Musk de xAI, ont tous évoqué les « modèles mondiaux », Google lie de manière unique et exhaustive ce concept fondamental à son orientation stratégique à court terme : l'« assistant IA universel ».)
En parlant de l'application Gemini, l'équivalent de Google de ChatGPT d'OpenAI, Hassabis a déclaré : « C'est notre vision ultime pour l'application Gemini, la transformer en un assistant IA universel, une IA personnelle, proactive et puissante, et l'une de nos étapes clés sur la voie de l'AGI. »
Cette vision a été concrétisée par des démonstrations d'E/S. Google a présenté une nouvelle application appelée Flow – un canevas de création cinématographique par glisser-déposer préservant la cohérence des personnages et de la caméra – qui exploite Veo 3, le nouveau modèle qui superpose vidéo physique et audio natif. Pour Hassabis, cette association est une preuve précoce que « la compréhension des modèles du monde se diffuse déjà dans les outils créatifs ». Concernant la robotique, il a également mis en avant le modèle perfectionné de Gemini Robotics, affirmant que « les systèmes d'IA auront besoin de modèles du monde pour fonctionner efficacement ».
Le PDG Sundar Pichai a confirmé cette affirmation en citant le projet Astra , qui « explore les futures capacités d'un assistant IA universel capable de comprendre le monde qui vous entoure ». Ces fonctionnalités d'Astra, comme la compréhension de vidéos en direct et le partage d'écran, sont désormais intégrées à Gemini Live . Josh Woodward, responsable de Google Labs et de l'application Gemini, a détaillé l'objectif de l'application : devenir « l'assistant IA le plus personnel, le plus proactif et le plus puissant ». Il a montré comment le « contexte personnel » (connectant l'historique de recherche et bientôt Gmail/Agenda) permet à Gemini d'anticiper les besoins, par exemple en proposant des questionnaires d'examen personnalisés ou des vidéos explicatives personnalisées utilisant des analogies compréhensibles par l'utilisateur (par exemple, la thermodynamique expliquée par le cyclisme). Woodward a souligné que c'est « la direction que nous prenons avec Gemini », rendu possible par le modèle Gemini 2.5 Pro, qui permet aux utilisateurs de « donner vie aux choses par la pensée ».
Les nouveaux outils de développement dévoilés lors de l'I/O constituent des éléments de base. Gemini 2.5 Pro avec « Deep Think » et l'hyperperformant Flash 2.5 (désormais doté de l'audio natif et de la prise en compte du contexte URL grâce à l'API Gemini ) constituent l'intelligence centrale. Google a également discrètement présenté Gemini Diffusion , témoignant de sa volonté d'aller au-delà des simples piles Transformer lorsque cela permettra d'améliorer l'efficacité ou la latence. Google intègre ces fonctionnalités dans une boîte à outils bien fournie : AI Studio et Firebase Studio constituent des points de départ essentiels pour les développeurs, tandis que Vertex AI reste la rampe d'accès pour les entreprises.
Ce projet colossal est motivé par les capacités considérables de R&D de Google, mais aussi par une nécessité stratégique. Dans le paysage des logiciels d'entreprise, Microsoft détient une emprise considérable, a déclaré à VentureBeat un directeur de l'IA d'une entreprise du Fortune 500, rassurant les clients par son engagement total envers Copilot . Ce dirigeant a requis l'anonymat en raison du caractère sensible de ses commentaires sur la concurrence intense entre les fournisseurs de cloud d'IA. La domination de Microsoft sur les applications de productivité Office 365 sera extrêmement difficile à déloger par une concurrence directe fonctionnalité par fonctionnalité, a-t-il ajouté.
La voie de Google vers un leadership potentiel – sa tentative de contourner l'emprise de Microsoft sur les entreprises – réside dans une redéfinition des règles du jeu grâce à un paradigme d'interaction fondamentalement supérieur, basé sur l'IA native. Si Google propose un véritable « assistant IA universel » basé sur un modèle mondial complet, il pourrait devenir la nouvelle couche indispensable – le système d'exploitation performant – pour la façon dont les utilisateurs et les entreprises interagissent avec la technologie. Comme Pichai l'a évoqué avec le podcasteur David Friedberg peu avant la conférence I/O, cela implique une prise en compte de l'environnement physique. Et donc, les lunettes de réalité augmentée, a déclaré Pichai, « c'est peut-être la prochaine étape… c'est ce qui me passionne ».
Mais cette offensive de l'IA est une course contre la montre. Premièrement, le moteur de recherche publicitaire de 200 milliards de dollars qui finance Google doit être protégé, même en pleine réinvention. La décision de monopolisation du ministère américain de la Justice pèse toujours sur Google ; la cession de Chrome a été évoquée comme la principale solution. Et en Europe, le Digital Markets Act (loi sur les marchés numériques) ainsi que les nouvelles poursuites en responsabilité pour atteinte aux droits d'auteur pourraient limiter la liberté d'exploration et d'affichage du Web ouvert par Gemini.
Enfin, la rapidité d'exécution est importante. Google a été critiqué pour sa lenteur ces dernières années. Mais au cours des 12 derniers mois, il est devenu évident que Google a patiemment travaillé sur plusieurs fronts et que cela a porté ses fruits avec une croissance plus rapide que celle de ses concurrents . Le défi de réussir cette transition vers l'IA à grande échelle est immense, comme en témoigne le récent rapport de Bloomberg qui détaille comment même un géant de la technologie comme Apple est confronté à des revers importants et à des réorganisations internes dans ses initiatives d'IA. Cette difficulté sectorielle souligne l'importance des enjeux pour tous les acteurs. Si Pichai n'a pas le sens du spectacle de certains concurrents, la longue liste de témoignages clients d'entreprise que Google a présentés lors de son événement Cloud Next le mois dernier – concernant des déploiements d'IA concrets – met en avant un leader qui laisse parler la cadence soutenue des produits et les succès remportés par les entreprises.
Parallèlement, des concurrents ciblés progressent. Microsoft poursuit sa progression dans le monde de l'entreprise. Sa conférence Build a présenté Microsoft 365 Copilot comme « l'interface utilisateur pour l'IA », Azure AI Foundry comme une « ligne de production pour l'intelligence » et Copilot Studio pour la création d'agents sophistiqués, avec d'impressionnantes démonstrations de workflows low-code ( Microsoft Build Keynote, Miti Joshi à 22h52, Kadesha Kerr à 51h26 ). La vision de Nadella, celle d'un « web agentique ouvert » ( NLWeb, MCP ), offre aux entreprises un parcours pragmatique d'adoption de l'IA, permettant une intégration sélective des technologies d'IA – qu'elles proviennent de Google ou d'un autre concurrent – dans un cadre centré sur Microsoft.
OpenAI, quant à elle, est largement en avance grâce à la portée grand public de son produit ChatGPT, l'entreprise ayant récemment fait état de 600 millions d'utilisateurs mensuels et de 800 millions d'utilisateurs hebdomadaires. À titre de comparaison, l'application Gemini compte 400 millions d'utilisateurs mensuels. En décembre, OpenAI a lancé une offre de recherche complète et envisagerait une offre publicitaire, ce qui pourrait représenter une menace existentielle pour le modèle de recherche de Google. Au-delà de la création de modèles phares, OpenAI se lance dans une stratégie verticale provocatrice avec l' acquisition annoncée d'IO de Jony Ive pour 6,5 milliards de dollars , promettant d'aller « au-delà de ces produits traditionnels » et laissant entendre qu'elle lançait un produit matériel qui tenterait de révolutionner l'IA, tout comme l'iPhone a révolutionné le mobile. Bien que tout cela puisse potentiellement perturber les ambitions de Google en matière d'informatique personnelle de nouvelle génération, il est également vrai que la capacité d'OpenAI à construire un fossé profond comme Apple l'a fait avec l'iPhone peut être limitée dans une ère de l'IA de plus en plus définie par des protocoles ouverts (comme MCP) et une interchangeabilité plus facile des modèles.
En interne, Google navigue dans son vaste écosystème. Comme l'a expliqué Jeanine Banks, vice-présidente de Developer X chez Google, à VentureBeat, servir la communauté mondiale diversifiée de développeurs de Google signifie qu'il n'existe pas de solution universelle, ce qui donne lieu à une gamme d'outils riche, mais parfois complexe : AI Studio, Vertex AI, Firebase Studio et de nombreuses API.
Pendant ce temps, Amazon fait pression sur un autre flanc : Bedrock héberge déjà les modèles Anthropic, Meta, Mistral et Cohere, offrant aux clients AWS une solution pragmatique et multi-modèle par défaut.
L'audacieuse tentative de Google de construire l'intelligence fondamentale pour l'ère de l'IA offre aux dirigeants d'entreprise des opportunités convaincantes et des considérations cruciales :
- Déplacez-vous maintenant ou modernisez plus tard : un cycle de publication en retard pourrait entraîner des réécritures coûteuses lorsque les interfaces d'assistant deviennent la valeur par défaut.
- Exploitez le potentiel révolutionnaire : pour les organisations qui cherchent à adopter l'IA la plus puissante, tirer parti de la recherche sur le « modèle mondial » de Google, des capacités multimodales (comme Veo 3 et Imagen 4 présentées par Woodward à l'I/O) et de la trajectoire AGI promise par Google offre une voie vers une innovation potentiellement significative.
- Préparez-vous à un nouveau paradigme d'interaction : le succès de l'« assistant universel » de Google impliquerait une nouvelle interface principale pour les services et les données. Les entreprises devraient élaborer une stratégie d'intégration via des API et des frameworks agents pour une diffusion contextuelle.
- Tenir compte du long terme (et de ses risques) : S'aligner sur la vision de Google est un engagement à long terme. Le « modèle mondial » complet et l'IAG sont des horizons potentiellement lointains. Les décideurs doivent concilier ces objectifs avec les besoins immédiats et les complexités de la plateforme.
- Contrairement aux alternatives ciblées : les solutions pragmatiques de Microsoft offrent dès aujourd'hui une productivité tangible aux entreprises. L'IA matérielle disruptive d'OpenAI/IO offre une autre voie. Une stratégie diversifiée, tirant le meilleur de chaque solution, est souvent judicieuse, notamment avec un Web agentique de plus en plus ouvert qui offre une telle flexibilité.
Ces choix complexes et ces stratégies concrètes d'adoption de l'IA seront au cœur des discussions lors de la conférence Transform 2025 de VentureBeat le mois prochain. Cet événement indépendant de premier plan réunit des décideurs techniques d'entreprise et des dirigeants d'entreprises pionnières pour partager leurs expériences concrètes sur les choix de plateformes (Google, Microsoft et au-delà) et le déploiement de l'IA, le tout organisé par l'équipe éditoriale de VentureBeat. Les places étant limitées, il est conseillé de s'inscrire tôt.
Le spectacle I/O de Google a été un message fort : Google a signalé son intention de concevoir et d'exploiter l'intelligence fondamentale du futur axé sur l'IA. Sa quête d'un « modèle mondial » et ses ambitions en matière d'IA générale visent à redéfinir l'informatique, à surpasser ses concurrents et à asseoir sa domination. L'audace est convaincante ; les promesses technologiques sont immenses.
La grande question est celle de l'exécution et du timing. Google pourra-t-il innover et intégrer ses vastes technologies dans une expérience cohérente et convaincante plus rapidement que ses concurrents pour consolider leurs positions ? Y parviendra-t-il tout en transformant la recherche et en relevant les défis réglementaires ? Et y parviendra-t-il en se concentrant aussi largement sur les consommateurs et les entreprises – un programme sans doute bien plus vaste que celui de ses principaux concurrents ?
Les prochaines années seront cruciales. Si Google concrétise sa vision du « modèle mondial », il pourrait bien inaugurer une ère d'intelligence ambiante personnalisée, devenant ainsi la nouvelle couche opérationnelle de nos vies numériques. Dans le cas contraire, sa grande ambition pourrait bien être l'exemple édifiant d'un géant qui vise tout, mais qui verrait son avenir défini par d'autres, plus précis et plus rapides.
Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de votre abonnement. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat