Benchmark IA
AI Benchmark
📖 Définition
💬 En termes simples
C'est l'équivalent des examens standardisés du système scolaire québécois : tous les élèves passent la même épreuve dans les mêmes conditions, ce qui permet de comparer les résultats de manière équitable. Cependant, une note d'examen ne reflète pas toute la compétence d'un élève, tout comme un score de benchmark ne capture pas toutes les capacités d'un modèle.
🎯 Exemple concret
En 2026, une entreprise québécoise compare trois modèles de langage sur le benchmark HumanEval pour choisir celui qui génère le code Python le plus fiable. Un organisme gouvernemental canadien crée un benchmark bilingue adapté au français québécois pour évaluer les assistants conversationnels. Un laboratoire universitaire publie un benchmark mesurant la capacité des modèles à raisonner sur des problèmes juridiques de droit civil québécois.
💡 Le saviez-vous ?
Certains benchmarks deviennent obsolètes en quelques mois parce que les nouveaux modèles atteignent des scores quasi parfaits, un phénomène appelé « saturation de benchmark ». Il existe un débat actif sur la « contamination » : certains modèles pourraient avoir été entraînés sur les données mêmes des tests, gonflant artificiellement leurs scores.