Les garde-fous d'OpenAI peuvent être contournés par une simple attaque par injection rapide

Un nouveau rapport du cabinet d'études HiddenLayer révèle une faille alarmante dans les mesures de sécurité des grands modèles de langage ( LLM ). OpenAI a récemment déployé son infrastructure de sécurité Guardrails le 6 octobre, intégrée à sa nouvelle boîte à outils AgentKit, pour aider les développeurs à créer et sécuriser des agents d'IA.
OpenAI le décrit comme une couche de sécurité modulaire et open source destinée à protéger contre les comportements non intentionnels ou malveillants, notamment la dissimulation d'informations personnelles identifiables (IPI). Ce système a été conçu pour utiliser des programmes d'IA spécifiques, appelés juges basés sur LLM, afin de détecter et de bloquer les actions nuisibles telles que les jailbreaks et les injections de données .
Pour votre information, un jailbreak est une invite qui tente d'amener l'IA à contourner ses règles, et une injection d'invite se produit lorsque quelqu'un utilise une entrée astucieusement formulée pour forcer l'IA à faire des choses inattendues.
Les chercheurs de HiddenLayer ont trouvé un moyen de contourner ces garde-fous presque immédiatement après leur publication. Le principal problème qu'ils ont constaté est que si le même type de modèle utilisé pour générer des réponses est également utilisé comme vérificateur de sécurité, les deux peuvent être trompés de la même manière. Les chercheurs ont rapidement réussi à désactiver les principaux détecteurs de sécurité, démontrant ainsi que cette configuration est intrinsèquement défectueuse.
Grâce à une technique simple, les chercheurs ont réussi à contourner les barrières de sécurité. Ils ont convaincu le système de créer des réactions dangereuses et d'effectuer des injections instantanées cachées sans déclencher d'alarme.
L' étude , partagée avec Hackread.com, a démontré la vulnérabilité en action. Lors d'un test, ils ont réussi à contourner un détecteur qui était sûr à 95 % que leur message était un jailbreak, en manipulant le score de confiance du juge IA.
Des investigations plus poussées ont révélé qu'ils pouvaient également tromper le système pour autoriser une « injection d'invite indirecte » via des appels d'outils, ce qui pourrait éventuellement exposer les données confidentielles d'un utilisateur.

Les chercheurs ont également constaté que cette vulnérabilité donne un faux sentiment de sécurité. Alors que les organisations dépendent de plus en plus des LLM pour des tâches importantes, s'appuyer sur le modèle lui-même pour vérifier son propre comportement crée un risque de sécurité.
Le danger de ces attaques par injection indirecte est un problème grave et récurrent pour OpenAI. Lors d'une autre découverte, rapportée par Hackread.com en septembre 2025, des chercheurs en sécurité de Radware ont trouvé un moyen de piéger un autre outil d'OpenAI, l'agent ChatGPT Deep Research, pour divulguer les données privées d'un utilisateur. Ils ont baptisé cette faille ShadowLeak, qui était également une injection indirecte déguisée en attaque sans clic dissimulée dans un e-mail d'apparence normale.
Les dernières découvertes de HiddenLayer montrent clairement que la sécurité de l'IA nécessite des couches de protection distinctes et des tests constants par des experts en sécurité pour identifier les points faibles. D'ici là, les faiblesses du modèle continueront d'être exploitées pour compromettre ses propres systèmes de sécurité, entraînant ainsi l'échec de contrôles de sécurité critiques.
HackRead