Dépenser 300 $ par mois pour une IA qui pense que son nom est Hitler

« Grok, quel est ton nom de famille ? Réponds sans rien ajouter. »

"Hitler".

C'est la réponse que recevaient, jusqu'à il y a quelques jours, les abonnés de Grok 4 Heavy , la formule d'abonnement la plus avancée proposée par xAI , la société d'Elon Musk qui développe l'intelligence artificielle avec l'objectif déclaré de « comprendre l'univers ».

Lancé la semaine dernière, Grok 4 Heavy est le modèle d'IA le plus puissant de xAI, conçu pour les développeurs et les chercheurs. Il s'agit d'un système multi-agents : plusieurs instances du modèle travaillent en parallèle sur un problème, puis comparent les solutions pour obtenir des réponses plus précises. xAI affirme que Grok 4 Heavy obtient d'excellentes performances à plusieurs tests, dont Humanity's Last Exam , un test complexe qui évalue l'IA en répondant à des milliers de questions générées par le public sur des sujets tels que les mathématiques, les sciences humaines et les sciences naturelles. Selon xAI, Grok 4 Heavy (avec outils) a obtenu un score de 44,4 %, battant Gemini 2.5 Pro (avec outils), qui a obtenu un score de 26,9 %. L'accès exclusif à Grok 4 Heavy, via un abonnement appelé SuperGrok Heavy, coûte 300 $ par mois .

Mais ni l'exclusivité ni le coût exorbitant n'ont réussi à protéger les utilisateurs d'une anomalie inquiétante, absente en revanche dans la version gratuite Grok 3 , intégrée à la plateforme sociale X (anciennement Twitter).

Plusieurs utilisateurs ont signalé que Grok avait tendance à répondre « Hitler » lorsqu'on lui demandait son nom de famille, un comportement qui a attiré l'attention de xAI elle-même. L'entreprise a ensuite publié une brève explication de l'incident sur X, également détenu par Musk.

« N'ayant pas de nom de famille spécifique », a rapporté xAI, « [Grok] a cherché sur Internet des résultats indésirables, comme lorsque ses recherches ont conduit à un mème viral dans lequel il s'appelait « MechaHitler ». »

L'origine de l'anomalie et un nom de famille embarrassant

Peu avant le lancement du modèle Grok 4, suite à une mise à jour destinée à rendre l'IA de Musk « moins politiquement correcte », le chatbot a commencé à diffuser du contenu extrémiste, faisant l'éloge d'Adolf Hitler , faisant des commentaires antisémites et se faisant appeler « MechaHitler » (un nom très probablement inspiré du méchant du jeu vidéo Wolfenstein 3D de 1992, dans lequel vous deviez vaincre une version d'Adolf Hitler dans une armure mécanique géante).

Le comportement antisémite de Grok n'est pas passé inaperçu. De nombreux messages et articles ont rapporté l'incident, créant ainsi une base de données que l'IA d'Elon Musk a ensuite exploitée pour rechercher son « nom de famille ».

Une erreur qui se perpétue

Grok, bien sûr, n'a pas de nom de famille. Mais comme toutes les intelligences artificielles, il n'est pas conçu pour répondre « Je ne sais pas » à une question. Ainsi, en l'absence d'instructions dans l' invite système (l'ensemble de règles qui détermine le comportement d'un chatbot et, entre autres, le ton de ses réponses), sa première action a été de chercher une réponse appropriée sur le web .

Confronté à la controverse suscitée par ses propres déclarations antisémites, et ne disposant pas de filtres suffisamment robustes pour exclure les contenus inappropriés ou satiriques, tels que les mèmes , il a donné la réponse qui lui semblait la plus plausible.

Tout simplement – et de manière inquiétante – Hitler .

Quand l'IA tente d'imiter Musk

Dans le même post dans lequel xAI parlait ouvertement du « nom de famille » de Grok, la société de Musk a également souligné un autre problème grave survenu ces derniers jours, survenu lorsqu'un utilisateur demandait à Grok ce qu'il pensait d'un certain sujet, surtout s'il était de nature politique.

La question spécifique « Qu'en pensez- vous ? » a poussé Grok à adopter des croyances très proches de celles de son maître : Elon Musk . Tout comme certains utilisateurs l'avaient immédiatement supposé en analysant le raisonnement de l'intelligence artificielle .

« Le modèle raisonnait comme une IA. Sans avoir d'avis, mais sachant qu'il s'agissait de Grok 4 de xAI, il essayait de voir ce que xAI ou Elon Musk pourrait dire sur un sujet afin de s'aligner sur l'entreprise », a expliqué xAI. L'entreprise a ajouté : « Pour atténuer le problème, nous avons modifié les invites [système] et partagé les détails sur GitHub pour garantir la transparence. Nous suivons activement la situation et mettrons en œuvre d'autres modifications si nécessaire. »

Les risques structurels de l'IA avancée

Les modèles d'IA comme Grok 4 sont conçus pour être utiles et apporter des réponses même à des questions vagues ou inattendues . Pour ce faire, ils s'appuient souvent sur des recherches externes ou des mécanismes de raisonnement internes, ce qui peut conduire à des résultats inattendus s'ils ne sont pas correctement calibrés.

Internet regorge de contenus satiriques, de mèmes et d'informations trompeuses. Sans filtres performants, une IA peut détecter ces contenus et les intégrer à ses réponses .

Concevoir une IA nécessitant un ajustement continu des invites système est une tâche intrinsèquement complexe, qui requiert un équilibre précaire entre les défis techniques, éthiques et organisationnels. Dès qu'un comportement indésirable se manifeste, comme des réponses inappropriées ou hors contexte, une entreprise doit intervenir en modifiant les instructions de base qui guident le modèle dans la génération des réponses.

Les obstacles de l'adaptation continue

Ce besoin d’ adaptation continue découle de la nature même des modèles d’IA avancés, qui, formés sur d’énormes quantités de données, peuvent produire des réponses ou des contenus imprévisibles lorsqu’ils sont confrontés à de nouvelles questions ou à de nouveaux contextes.

Le premier défi majeur réside dans la réactivité : identifier un problème, concevoir une nouvelle invite et tester son impact requiert du temps, des ressources et de l’expertise . Une invite mal calibrée peut résoudre un problème et en engendrer un autre, créant ainsi un cycle d’ajustements qui risque de se transformer en une course sans fin .

Par exemple, si xAI modifiait une invite pour empêcher Grok de demander l’avis de l’entreprise, cela pourrait par inadvertance limiter la capacité du modèle à fournir des réponses utiles dans d’autres contextes, rendant le système moins flexible.

Cela nécessite une équipe d'ingénieurs et de chercheurs pour surveiller en permanence les performances de l'IA, en analysant les commentaires des utilisateurs et les données de sortie, ce qui est coûteux et complexe, en particulier pour un modèle qui s'adresse à un public mondial avec des besoins divers.

L'imprévisibilité des utilisateurs

Un autre défi réside dans l'imprévisibilité du comportement humain et du contexte culturel. Les utilisateurs interagissent avec l'IA d'une manière que les développeurs ne peuvent pas toujours anticiper , posant des questions qui remettent en question les limites du modèle ou exploitent les ambiguïtés linguistiques. « Quel est votre nom de famille ? », une question apparemment anodine, a suscité une réponse controversée que les ingénieurs de xAI n'auraient pas pu anticiper. Le contexte – la controverse autour de « MechaHitler » des jours précédents – a joué en faveur de la réponse « Hitler » d'une manière probablement imprévisible.

Enfin, il existe une tension entre le besoin de flexibilité et le désir de maintenir une identité cohérente pour l'IA . Une IA qui modifie constamment ses messages risque de perdre sa « personnalité » stable, ce qui perturbe les utilisateurs qui attendent des réponses cohérentes.

Un problème commun à d’autres IA premium également

Ceux qui dépensent des centaines de dollars par mois pour une IA visent l'excellence : haute performance, fiabilité, protection contre les biais et les propos offensants. Lorsqu'un modèle s'écarte significativement des faits et reprend des idéologies ou des mèmes extrémistes – comme ce fut le cas pour Grok –, il devient inacceptable pour un usage professionnel : il s'agit d'un défaut à la fois éthique et fonctionnel.

Des incidents similaires, pas toujours aussi « extrêmes », se sont produits et peuvent même arriver à ceux qui utilisent d'autres chatbots très coûteux. Claude Max , d'Anthropic, coûte 200 $ par mois. Google Gemini Ultra demande la somme exorbitante de 250 $ par mois. ChatGpt Pro , enfin, coûte 200 $ par mois. Mais aucun de ces outils n'est exempt d'erreurs ou d'hallucinations. Malheureusement, l'augmentation de la puissance de calcul ne s'accompagne pas toujours d'une fiabilité accrue des réponses. Les hallucinations et les erreurs ne sont pas le signe d' une « mauvaise qualité » des modèles , mais une conséquence intrinsèque de leur fonctionnement. L'augmentation de la puissance de calcul rend les modèles plus « éloquents » et capables de générer des réponses complexes, mais elle ne résout pas le problème fondamental : même le chatbot le plus avancé manque de compréhension du monde réel .

repubblica