L'instruction tuning est un fine-tuning supervisé sur des paires instruction-réponse qui apprend à un LLM à suivre des consignes en langage naturel.
📖 Définition
L'instruction tuning (ajustement par instructions) est une forme d'apprentissage supervisé (fine-tuning) où l'on poursuit l'entraînement d'un modèle de langage déjà pré-entraîné sur un jeu de données de paires « instruction → réponse », afin qu'il apprenne à suivre des consignes en langage naturel de façon utile et cohérente. Chaque exemple montre explicitement comment répondre à une instruction (« Résume ce texte », « Traduis en français », « Explique comme à un enfant de 5 ans »), plutôt que de simplement continuer un texte. C'est cette étape qui est largement responsable du comportement « assistant de chat » moderne : comprendre des requêtes variées, rester dans le cadre de la consigne et gérer plusieurs tâches. Elle se distingue du pré-entraînement, auto-supervisé sur d'immenses corpus de texte bruts, qui apprend la langue et les connaissances générales mais sans objectif de « suivre des instructions ». Elle se distingue aussi du fine-tuning « classique » (spécialisation sur une seule tâche) : l'instruction tuning entraîne sur une grande variété de tâches formulées comme des instructions, ce qui rend le modèle polyvalent et capable de généraliser. Enfin, elle précède souvent le RLHF (apprentissage par renforcement à partir de retours humains), avec lequel elle est complémentaire dans la chaîne d'alignement.
💬 En termes simples
Le pré-entraînement apprend au modèle la langue et la culture générale (comme des années de lecture) ; l'instruction tuning lui apprend les bonnes manières de la conversation : écouter la consigne et y répondre utilement, plutôt que de continuer à parler tout seul.
🎯 Exemple concret
Un modèle de base « sait » beaucoup de choses sur le hockey, mais répond de façon verbeuse et hors format. Après instruction tuning sur des milliers d'exemples, il sait répondre à « Donne 3 points clés sur la LNH » par une liste concise de trois éléments.
💡 Le saviez-vous ?
C'est l'instruction tuning, plus que la taille du modèle, qui a transformé les « modèles de base » bruts en assistants utilisables : sans cette étape, un LLM aurait tendance à « compléter » votre phrase plutôt qu'à répondre à votre demande.
❓ Questions fréquentes
Quelle différence entre instruction tuning et pré-entraînement ?
Le pré-entraînement apprend la langue et les connaissances générales sur du texte brut ; l'instruction tuning, sur un jeu plus petit de paires instruction-réponse, apprend au modèle à interpréter une consigne comme une tâche à exécuter.
Instruction tuning et RLHF, est-ce la même chose ?
Non : ce sont deux étapes complémentaires de l'alignement. L'instruction tuning est un apprentissage supervisé sur des réponses correctes ; le RLHF affine ensuite le comportement à partir de préférences humaines.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
✉️
Restez informé
Recevez nos sélections d'outils et articles directement dans votre boîte courriel.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité