Garde-fous (guardrails)

Q: Quelle différence entre garde-fous d'entrée et de sortie ?

Les garde-fous d'entrée filtrent ce qui est envoyé au modèle (injections, PII, toxicité) ; ceux de sortie filtrent ce que le modèle renvoie (contenu interdit, fuites, format) avant affichage.

Q: Les garde-fous remplacent-ils l'alignement du modèle ?

Non : ils s'ajoutent par-dessus. L'alignement rend le modèle plus sûr par nature ; les garde-fous sont une couche de contrôle externe et déterministe, en complément.

Abstract

Les garde-fous sont des mécanismes de contrôle appliqués aux entrées et sorties d'un LLM pour bloquer le contenu interdit, sensible ou dangereux et assurer la conformité.