LLM-as-a-judge

Q: Pourquoi utiliser un LLM comme juge ?

Parce qu'il évalue des réponses ouvertes (sans réponse unique) plus finement qu'une comparaison mot à mot, rapidement et à faible coût, sur de gros volumes.

Q: Quels sont les risques ?

Des biais du juge (préférence pour les réponses longues, biais de position, affinité avec des modèles proches) ; il faut calibrer le prompt et vérifier l'accord avec l'humain.

Abstract

Le « LLM-as-a-judge » consiste à utiliser un grand modèle de langage pour évaluer ou comparer automatiquement les réponses d'autres modèles selon des critères de qualité.