Les garde-fous sont des mécanismes de contrôle appliqués aux entrées et sorties d'un LLM pour bloquer le contenu interdit, sensible ou dangereux et assurer la conformité.
📖 Définition
Les garde-fous (guardrails) sont des mécanismes de sécurité — techniques et de politique — qui encadrent les entrées et les sorties d'un modèle d'IA générative pour empêcher des comportements dangereux, non conformes ou hors-périmètre. Ils forment une couche défensive distincte du modèle lui-même : avant qu'une requête n'atteigne le modèle (garde-fous d'entrée) et avant qu'une réponse ne parvienne à l'utilisateur ou à un autre système (garde-fous de sortie). À l'entrée, ils détectent et bloquent les injections de requête (prompt injection) et tentatives de jailbreak, masquent les données personnelles ou sensibles (PII), filtrent le contenu toxique ou illégal et valident le format. À la sortie, ils bloquent le contenu interdit, empêchent les fuites d'informations confidentielles, vérifient la conformité aux politiques (ne pas donner d'avis médical hors cadre, etc.) et imposent un format strict (JSON valide). Ils s'appuient sur des règles déterministes, des classifieurs ou d'autres modèles filtrants, et peuvent régénérer une réponse (re-prompting) si elle viole une règle. Les garde-fous sont essentiels pour déployer un assistant IA de façon sûre et conforme (AI Act, lois locales).
💬 En termes simples
C'est comme les garde-fous d'un pont et un agent de sécurité à l'entrée : ils ne conduisent pas la voiture (le modèle), mais ils empêchent d'aller dans le décor et filtrent ce qui entre et ce qui sort.
🎯 Exemple concret
Un robot conversationnel d'entreprise : à l'entrée, un garde-fou masque le numéro de carte bancaire qu'un client a collé ; à la sortie, un autre bloque une réponse qui révélerait les données d'un autre client et force un format de ticket valide.
💡 Le saviez-vous ?
Les garde-fous sont une couche SÉPARÉE du modèle : on peut renforcer la sécurité d'un assistant sans réentraîner le LLM, simplement en ajustant les filtres d'entrée et de sortie.
❓ Questions fréquentes
Quelle différence entre garde-fous d'entrée et de sortie ?
Les garde-fous d'entrée filtrent ce qui est envoyé au modèle (injections, PII, toxicité) ; ceux de sortie filtrent ce que le modèle renvoie (contenu interdit, fuites, format) avant affichage.
Les garde-fous remplacent-ils l'alignement du modèle ?
Non : ils s'ajoutent par-dessus. L'alignement rend le modèle plus sûr par nature ; les garde-fous sont une couche de contrôle externe et déterministe, en complément.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
✉️
Restez informé
Recevez nos sélections d'outils et articles directement dans votre boîte courriel.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité