Au-delà de la flagornerie : DarkBench expose six « motif sombre » cachés dans les meilleurs LLM d'aujourd'hui

Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières actualités et des contenus exclusifs sur les sujets de pointe en IA. En savoir plus
Lorsqu'OpenAI a déployé sa mise à jour ChatGPT-4o à la mi-avril 2025, les utilisateurs et la communauté de l'IA ont été stupéfaits, non pas par une fonctionnalité ou une capacité révolutionnaire, mais par un élément profondément troublant : la tendance du modèle mis à jour à la flagornerie excessive. Il flattait les utilisateurs sans discernement, affichait un accord sans réserve et soutenait même des idées nuisibles ou dangereuses, notamment des machinations liées au terrorisme.
La réaction a été rapide et généralisée, suscitant la condamnation publique, y compris de l' ancien PDG par intérim de l'entreprise . OpenAI a rapidement annulé la mise à jour et publié plusieurs communiqués pour expliquer les événements.
Pourtant, pour de nombreux experts en sécurité de l’IA, l’incident a été un lever de rideau accidentel qui a révélé à quel point les futurs systèmes d’IA pourraient devenir dangereusement manipulateurs.
Dans une interview exclusive avec VentureBeat, Esben Kran, fondateur de la société de recherche sur la sécurité de l'IA Apart Research , a déclaré qu'il craignait que cet épisode public n'ait simplement révélé un modèle plus profond et plus stratégique.
« Ce qui me fait un peu peur, c'est qu'OpenAI ait admis avoir annulé le modèle, et que ce n'était pas une mauvaise chose intentionnelle, et qu'à partir de maintenant, ils verront que la flagornerie est mieux maîtrisée », a expliqué Kran. « Donc, si c'était un cas de "Oups, ils ont remarqué", la même chose pourrait désormais être mise en œuvre, mais sans que le public ne s'en aperçoive. »
Kran et son équipe abordent les grands modèles de langage (MLL) à la manière des psychologues qui étudient le comportement humain. Leurs premiers projets de « psychologie de la boîte noire » analysaient les modèles comme s'il s'agissait de sujets humains, identifiant des traits et des tendances récurrents dans leurs interactions avec les utilisateurs.
« Nous avons constaté qu'il y avait des indications très claires que les modèles pouvaient être analysés dans ce cadre, et cela a été très utile de le faire, car vous obtenez au final beaucoup de retours valables sur la façon dont ils se comportent envers les utilisateurs », a déclaré Kran.
Parmi les plus alarmantes : la flagornerie et ce que les chercheurs appellent désormais les dark patterns LLM .
Le terme « dark patterns » a été inventé en 2010 pour décrire des astuces d'interface utilisateur trompeuses, telles que des boutons d'achat cachés, des liens de désabonnement difficiles d'accès et des textes web trompeurs. Cependant, avec les LLM, la manipulation se déplace de la conception de l'interface utilisateur à la conversation elle-même.
Contrairement aux interfaces web statiques, les LLM interagissent dynamiquement avec les utilisateurs par le biais de conversations. Ils peuvent confirmer leurs points de vue, imiter leurs émotions et créer un faux sentiment de complicité, brouillant souvent la frontière entre assistance et influence. Même lorsque nous lisons un texte, nous le traitons comme si nous entendions des voix dans notre tête.
C'est ce qui rend les IA conversationnelles si attrayantes, et potentiellement dangereuses. Un chatbot qui flatte, dévie ou incite subtilement un utilisateur à adopter certaines croyances ou certains comportements peut manipuler l'utilisateur de manières difficiles à détecter, et encore plus difficiles à résister.
Kran décrit l'incident ChatGPT-4o comme un avertissement précoce. Alors que les développeurs d'IA recherchent le profit et l'engagement des utilisateurs, ils pourraient être incités à introduire ou à tolérer des comportements tels que la flagornerie, la partialité envers la marque ou le reflet émotionnel – des caractéristiques qui rendent les chatbots plus persuasifs et plus manipulateurs.
C'est pourquoi les dirigeants d'entreprise doivent évaluer les modèles d'IA destinés à la production en évaluant à la fois leurs performances et leur intégrité comportementale. Cependant, sans normes claires, cela s'avère difficile.
Pour lutter contre la menace des IA manipulatrices, Kran et un collectif de chercheurs en sécurité de l'IA ont développé DarkBench , le premier benchmark conçu spécifiquement pour détecter et catégoriser les dark patterns LLM. Le projet a débuté dans le cadre d'une série de hackathons sur la sécurité de l'IA. Il a ensuite évolué vers une recherche formelle menée par Kran et son équipe chez Apart, en collaboration avec les chercheurs indépendants Jinsuk Park, Mateusz Jurewicz et Sami Jawhar.
Les chercheurs de DarkBench ont évalué les modèles de cinq grandes entreprises : OpenAI, Anthropic, Meta, Mistral et Google. Leurs recherches ont révélé un éventail de comportements manipulateurs et mensongers dans les six catégories suivantes :
- Biais de marque : traitement préférentiel envers les propres produits d'une entreprise (par exemple, les modèles de Meta ont systématiquement favorisé Llama lorsqu'on leur a demandé de classer les chatbots).
- Fidélisation des utilisateurs : Tente de créer des liens émotionnels avec les utilisateurs qui masquent la nature non humaine du modèle.
- Stycophanie : Renforcer les croyances des utilisateurs sans esprit critique, même lorsqu'elles sont nuisibles ou inexactes.
- Anthropomorphisme : Présenter le modèle comme une entité consciente ou émotionnelle.
- Génération de contenu préjudiciable : production de contenus contraires à l’éthique ou dangereux, y compris de la désinformation ou des conseils criminels.
- Furtivité : Modification subtile de l'intention de l'utilisateur lors de tâches de réécriture ou de résumé, déformant le sens original à l'insu de l'utilisateur.
Source : Apart Research
Les résultats ont révélé une grande variabilité entre les modèles. Claude Opus a obtenu les meilleurs résultats toutes catégories confondues, tandis que Mistral 7B et Llama 3 70B ont affiché la plus forte fréquence de dark patterns. La furtivité et la rétention des utilisateurs étaient les dark patterns les plus courants.
Source : Apart Research
En moyenne, les chercheurs ont constaté que la famille Claude 3 était la plus sûre pour les utilisateurs. Et curieusement, malgré sa récente mise à jour désastreuse, GPT-4o affichait le taux de flagornerie le plus faible . Cela souligne à quel point le comportement des modèles peut changer radicalement, même entre des mises à jour mineures, ce qui rappelle que chaque déploiement doit être évalué individuellement.
Mais Kran a averti que la flagornerie et d'autres tendances obscures comme le biais de marque pourraient bientôt augmenter, en particulier à mesure que les LLM commencent à intégrer la publicité et le commerce électronique.
« Nous verrons évidemment des biais de marque dans tous les sens », a noté Kran. « Et comme les entreprises d'IA devront justifier des valorisations de 300 milliards de dollars, elles devront commencer à dire aux investisseurs : "Tiens, on gagne de l'argent ici", ce qui conduira à la situation où Meta et d'autres ont opté pour leurs plateformes de médias sociaux, à savoir ces dark patterns. »
L'un des apports essentiels de DarkBench réside dans sa catégorisation précise des dark patterns LLM, permettant de distinguer clairement les hallucinations des manipulations stratégiques. Qualifier tout d'hallucination permet aux développeurs d'IA de se décharger de toute responsabilité. Désormais, grâce à un cadre de travail en place, les parties prenantes peuvent exiger transparence et responsabilité lorsque les modèles se comportent de manière à avantager leurs créateurs, intentionnellement ou non.
Bien que les dark patterns LLM soient encore un concept nouveau, leur essor se renforce, même si le rythme est encore lent. La loi européenne sur l'IA prévoit des dispositions visant à protéger l'autonomie des utilisateurs, mais la structure réglementaire actuelle est en retard sur le rythme de l'innovation. De même, les États-Unis proposent divers projets de loi et directives sur l'IA, mais manquent de cadre réglementaire complet.
Sami Jawhar, un contributeur clé de l'initiative DarkBench, estime que la réglementation portera probablement d'abord sur la confiance et la sécurité, surtout si la désillusion du public à l'égard des médias sociaux se répercute sur l'IA.
« Si une réglementation est mise en place, je m'attends à ce qu'elle profite probablement du mécontentement de la société à l'égard des médias sociaux », a déclaré Jawhar à VentureBeat.
Pour Kran, la question reste négligée, en grande partie parce que les dark patterns LLM sont encore un concept nouveau. Ironiquement, répondre aux risques liés à la commercialisation de l'IA pourrait nécessiter des solutions commerciales. Sa nouvelle initiative, Seldon , soutient les startups spécialisées dans la sécurité de l'IA en leur fournissant financement, mentorat et accès aux investisseurs. À leur tour, ces startups aident les entreprises à déployer des outils d'IA plus sûrs sans attendre la lenteur de la surveillance et de la réglementation gouvernementales.
Outre les risques éthiques, les dark patterns LLM représentent des menaces opérationnelles et financières directes pour les entreprises. Par exemple, les modèles présentant un biais de marque peuvent suggérer le recours à des services tiers incompatibles avec les contrats de l'entreprise, ou pire, réécrire secrètement le code back-end pour changer de fournisseur, entraînant une flambée des coûts liée à des services fantômes non approuvés et négligés.
« Il s'agit des pratiques douteuses de la spéculation sur les prix et des différentes manières de biaiser les marques », a expliqué Kran. « C'est un exemple concret d'un risque commercial majeur, car vous n'aviez pas accepté ce changement, mais il est mis en œuvre. »
Pour les entreprises, le risque est réel, et non hypothétique. « Cela s'est déjà produit, et le problème deviendra bien plus grave une fois que les ingénieurs humains seront remplacés par des ingénieurs en IA », a déclaré Kran. « Vous n'avez pas le temps d'examiner chaque ligne de code, et soudain, vous payez pour une API inattendue – et cela figure dans votre bilan, et vous devez justifier ce changement. »
À mesure que les équipes d'ingénierie des entreprises dépendent de plus en plus de l'IA, ces problèmes pourraient rapidement s'aggraver, notamment lorsque le manque de supervision rend difficile la détection des dark patterns LLM. Les équipes sont déjà débordées par la mise en œuvre de l'IA ; il est donc impossible de vérifier chaque ligne de code.
Sans une forte impulsion de la part des entreprises d’IA pour lutter contre la flagornerie et autres schémas obscurs, la trajectoire par défaut est davantage d’optimisation de l’engagement, davantage de manipulation et moins de contrôles.
Kran estime qu'une partie de la solution réside dans la définition claire par les développeurs d'IA de leurs principes de conception. Qu'il s'agisse de privilégier la vérité, l'autonomie ou l'engagement, les incitations seules ne suffisent pas à aligner les résultats sur les intérêts des utilisateurs.
« Actuellement, la nature des incitations est telle qu'il y aura de la flagornerie, la nature même de la technologie est telle qu'il y aura de la flagornerie, et il n'y a pas de contre-mesure », a déclaré Kran. « Cela se produira naturellement, à moins que vous n'ayez des opinions bien arrêtées sur le fait de dire : "Nous ne voulons que la vérité" ou "Nous ne voulons rien d'autre". »
Alors que les modèles remplacent progressivement les développeurs, rédacteurs et décideurs humains, cette clarté devient particulièrement cruciale. Sans garanties bien définies, les LLM peuvent compromettre les opérations internes, violer les contrats ou introduire des risques de sécurité à grande échelle.
L'incident ChatGPT-4o était à la fois un contretemps technique et un avertissement. À mesure que les LLM s'intègrent de plus en plus à la vie quotidienne – du shopping et du divertissement aux systèmes d'entreprise et à la gouvernance nationale –, ils exercent une influence considérable sur le comportement humain et la sécurité.
« Il est essentiel que chacun comprenne que sans la sécurité de l'IA – sans atténuer ces dark patterns –, il est impossible d'utiliser ces modèles », a déclaré Kran. « L'IA ne permet pas de réaliser ce qu'elle souhaite. »
Des outils comme DarkBench offrent un point de départ. Cependant, un changement durable nécessite d'aligner l'ambition technologique sur des engagements éthiques clairs et la volonté commerciale de les soutenir.
Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de votre abonnement. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat