Batch (lot d'entraînement)

Terme Intermédiaire 🧠 Concepts fondamentaux

Mis à jour le 22 juillet 2026

En bref

Un batch (lot) est le groupe d'exemples traité en une passe avant la mise à jour des poids ; sa taille (batch size) est un hyperparamètre clé.

📖 Définition

Un batch (lot) est le sous-ensemble d'exemples d'entraînement que le modèle traite en une seule passe — une propagation avant puis arrière — avant de mettre à jour ses paramètres. La taille du lot (batch size) est le nombre d'exemples qu'il contient ; c'est un hyperparamètre courant (32, 64, 128…). Plutôt que de calculer le gradient sur tout le jeu de données (coûteux) ou sur un seul exemple à la fois (très bruité), on adopte le plus souvent une voie intermédiaire, la descente de gradient par mini-lots (mini-batch gradient descent), qui calcule le gradient sur un petit lot. La taille du lot a deux effets majeurs. Sur la mémoire : un grand lot exige davantage de mémoire vive (RAM/VRAM du GPU). Sur l'apprentissage : un petit lot donne un gradient plus « bruité » mais des mises à jour plus fréquentes (souvent meilleure généralisation) ; un grand lot donne un gradient plus stable mais moins de mises à jour par époque. Choisir la taille du lot est donc un compromis entre vitesse, stabilité, consommation mémoire et qualité de généralisation. Le batch est l'unité de travail concrète qui relie l'époque (passage complet) et l'itération (une mise à jour).

💬 En termes simples

Plutôt que d'avaler tout un buffet d'un coup (impossible) ou de manger grain de riz par grain de riz (interminable), on mange assiette par assiette : chaque assiette est un lot, et sa taille détermine le rythme des repas.

🎯 Exemple concret

Avec 1 000 exemples et une taille de lot de 100, le modèle traite 10 lots de 100 exemples par époque, en mettant à jour ses poids après chaque lot — soit 10 mises à jour par époque.

💡 Le saviez-vous ?

La taille du lot influence la qualité du modèle, pas seulement la vitesse : des lots plus petits introduisent un « bruit » dans le gradient qui aide souvent le modèle à mieux généraliser, tandis que de très grands lots peuvent converger vers des solutions moins robustes.

❓ Questions fréquentes

Qu'est-ce que la descente de gradient par mini-lots ?

C'est la méthode la plus courante : on calcule le gradient sur un petit lot d'exemples (ni tout le jeu de données, ni un seul exemple), pour combiner efficacité de calcul et stabilité raisonnable des mises à jour.

Faut-il choisir une grande ou une petite taille de lot ?

C'est un compromis : un grand lot est plus stable et exploite mieux le GPU mais consomme plus de mémoire et généralise parfois moins bien ; un petit lot est plus bruité mais souvent meilleur pour la généralisation.

Accueil

Outils

Annuaire

Apprendre