Le « LLM-as-a-judge » consiste à utiliser un grand modèle de langage pour évaluer ou comparer automatiquement les réponses d'autres modèles selon des critères de qualité.
📖 Définition
« LLM-as-a-judge » (le LLM-juge, ou évaluation par un grand modèle de langage) est une technique consistant à utiliser un modèle de langage puissant pour évaluer automatiquement les réponses produites par un autre modèle. Plutôt que de comparer mot à mot à une réponse de référence — ce qui rate les reformulations valables — on demande au modèle-juge de noter une réponse selon des critères comme la pertinence, l'exactitude, la cohérence ou le respect d'une consigne, parfois en comparant deux réponses pour désigner la meilleure. Cette approche s'est imposée à partir de 2023 parce qu'elle est rapide, peu coûteuse et qu'elle s'adapte bien aux tâches ouvertes où il n'existe pas une seule bonne réponse. Elle a toutefois des limites connues : le modèle-juge peut présenter des biais (préférer les réponses longues, ou celles issues de modèles proches du sien), d'où l'importance de bien calibrer le prompt d'évaluation et de vérifier l'accord de ses jugements avec ceux d'évaluateurs humains.
💬 En termes simples
C'est comme confier la correction des copies à un examinateur expérimenté plutôt qu'à une grille de mots-clés rigide : il comprend les bonnes réponses formulées autrement, mais il faut s'assurer qu'il note de façon juste et constante.
🎯 Exemple concret
Pour évaluer un robot conversationnel, on envoie à un modèle-juge la question, la réponse du robot et une consigne : « note de 1 à 5 la pertinence et l'exactitude ». Le juge attribue par exemple 4/5 avec une justification, sur des milliers de réponses, en quelques minutes.
💡 Le saviez-vous ?
Les modèles-juges présentent souvent un « biais de position » : dans une comparaison de deux réponses, ils tendent à préférer celle présentée en premier — on corrige cela en inversant l'ordre et en moyennant les deux jugements.
❓ Questions fréquentes
Pourquoi utiliser un LLM comme juge ?
Parce qu'il évalue des réponses ouvertes (sans réponse unique) plus finement qu'une comparaison mot à mot, rapidement et à faible coût, sur de gros volumes.
Quels sont les risques ?
Des biais du juge (préférence pour les réponses longues, biais de position, affinité avec des modèles proches) ; il faut calibrer le prompt et vérifier l'accord avec l'humain.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
✉️
Restez informé
Recevez nos sélections d'outils et articles directement dans votre boîte courriel.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité