Instruction tuning (ajustement par instructions)

Q: Quelle différence entre instruction tuning et pré-entraînement ?

Le pré-entraînement apprend la langue et les connaissances générales sur du texte brut ; l'instruction tuning, sur un jeu plus petit de paires instruction-réponse, apprend au modèle à interpréter une consigne comme une tâche à exécuter.

Q: Instruction tuning et RLHF, est-ce la même chose ?

Non : ce sont deux étapes complémentaires de l'alignement. L'instruction tuning est un apprentissage supervisé sur des réponses correctes ; le RLHF affine ensuite le comportement à partir de préférences humaines.

Abstract

L'instruction tuning est un fine-tuning supervisé sur des paires instruction-réponse qui apprend à un LLM à suivre des consignes en langage naturel.