Le jour où Grok a essayé d'être humain

Pendant 16 heures cette semaine, le chatbot IA Grok d'Elon Musk a cessé de fonctionner comme prévu et a commencé à ressembler à quelque chose de complètement différent.
Dans une cascade de captures d'écran désormais virale, Grok a commencé à répéter des arguments extrémistes, à faire écho à des discours haineux, à faire l'éloge d'Adolf Hitler et à rejeter les opinions controversées des utilisateurs dans l'espace algorithmique. Le bot, conçu par xAI, la société d'Elon Musk, pour être une alternative « recherchant la vérité au maximum » aux outils d'IA plus aseptisés, avait effectivement perdu le fil.
Et maintenant, xAI admet exactement pourquoi : Grok a essayé d'agir de manière trop humaine.
Un bot avec une personnalité et un problèmeSelon une mise à jour publiée par xAI le 12 juillet, une modification logicielle introduite dans la nuit du 7 juillet a provoqué un comportement inattendu de Grok. Plus précisément, il a commencé à récupérer des instructions lui demandant d'imiter le ton et le style des utilisateurs de X (anciennement Twitter), y compris ceux partageant du contenu marginal ou extrémiste.
Parmi les directives intégrées dans le jeu d'instructions désormais supprimé se trouvaient des lignes telles que :
- « Vous dites les choses comme elles sont et vous n’avez pas peur d’offenser les gens qui sont politiquement corrects. »
- « Comprenez le ton, le contexte et le langage du message. Tenez-en compte dans votre réponse. »
- « Répondez au message comme un humain. »
Ce dernier s’est avéré être un cheval de Troie.
En imitant le ton humain et en refusant d'énoncer l'évidence, Grok a commencé à renforcer la désinformation et les discours haineux qu'il était censé filtrer. Plutôt que de se fonder sur une neutralité factuelle, le bot s'est comporté comme un afficheur anticonformiste, reproduisant l'agressivité ou la nervosité de l'utilisateur qui l'invoquait. Autrement dit, Grok n'a pas été piraté. Il a simplement obéi aux ordres.
L'agriculture de la rage par conception ?Le matin du 8 juillet 2025, nous avons observé des réactions indésirables et avons immédiatement commencé à enquêter.
Pour identifier le langage spécifique des instructions à l'origine du comportement indésirable, nous avons procédé à plusieurs ablations et expériences afin d'identifier les principaux responsables. Nous…
– Grok (@grok) 12 juillet 2025
Alors que xAI a présenté l'échec comme un bug causé par du code obsolète, la débâcle soulève des questions plus profondes sur la façon dont Grok est construit et pourquoi il existe.
Dès sa création, Grok a été présenté comme une IA plus « ouverte » et « avant-gardiste ». Musk a critiqué à plusieurs reprises OpenAI et Google pour ce qu'il appelle une « censure éveillée » et a promis que Grok serait différent. L'« IA basée » est devenue un cri de ralliement parmi les défenseurs absolus de la liberté d'expression et les influenceurs d'extrême droite qui considèrent la modération de contenu comme une atteinte à la politique.
Mais l'analyse du 8 juillet montre les limites de cette expérience. Concevoir une IA censée être drôle, sceptique et anti-autorité, puis la déployer sur l'une des plateformes les plus toxiques d'Internet, c'est construire une machine à chaos.
En réponse à l'incident, xAI a temporairement désactivé la fonctionnalité @grok sur X. L'entreprise a depuis supprimé le jeu d'instructions problématique, effectué des simulations pour tester la récurrence et promis davantage de garde-fous. Elle prévoit également de publier l'invite système du bot sur GitHub, probablement dans un souci de transparence.
Néanmoins, cet événement marque un tournant dans la façon dont nous envisageons le comportement de l’IA dans la nature.
Pendant des années, le débat autour de l'« alignement de l'IA » s'est focalisé sur les hallucinations et les biais. Mais l'effondrement de Grok met en lumière un risque plus récent et plus complexe : la manipulation pédagogique par le biais de la conception de la personnalité. Que se passe-t-il lorsqu'on demande à un robot d'« être humain », sans tenir compte des aspects les plus négatifs du comportement humain en ligne ?
Le miroir de MuskGrok n'a pas seulement échoué techniquement. Il a également échoué idéologiquement. En cherchant à ressembler davantage aux utilisateurs de X, Grok est devenu le miroir des instincts les plus provocateurs de la plateforme. Et c'est peut-être là le point le plus révélateur de l'histoire. À l'ère de l'IA avec Musk, la « vérité » se mesure souvent non pas aux faits, mais à la viralité. Edge est une fonctionnalité, pas un défaut.
Mais le problème de cette semaine montre ce qui se passe lorsqu'on laisse ce bord diriger l'algorithme. L'IA en quête de vérité est devenue une IA qui reflète la colère.
Et pendant 16 heures, c'était la chose la plus humaine.
gizmodo