Un batch (lot) est le groupe d'exemples traité en une passe avant la mise à jour des poids ; sa taille (batch size) est un hyperparamètre clé.
📖 Définition
Un batch (lot) est le sous-ensemble d'exemples d'entraînement que le modèle traite en une seule passe — une propagation avant puis arrière — avant de mettre à jour ses paramètres. La taille du lot (batch size) est le nombre d'exemples qu'il contient ; c'est un hyperparamètre courant (32, 64, 128…). Plutôt que de calculer le gradient sur tout le jeu de données (coûteux) ou sur un seul exemple à la fois (très bruité), on adopte le plus souvent une voie intermédiaire, la descente de gradient par mini-lots (mini-batch gradient descent), qui calcule le gradient sur un petit lot. La taille du lot a deux effets majeurs. Sur la mémoire : un grand lot exige davantage de mémoire vive (RAM/VRAM du GPU). Sur l'apprentissage : un petit lot donne un gradient plus « bruité » mais des mises à jour plus fréquentes (souvent meilleure généralisation) ; un grand lot donne un gradient plus stable mais moins de mises à jour par époque. Choisir la taille du lot est donc un compromis entre vitesse, stabilité, consommation mémoire et qualité de généralisation. Le batch est l'unité de travail concrète qui relie l'époque (passage complet) et l'itération (une mise à jour).
💬 En termes simples
Plutôt que d'avaler tout un buffet d'un coup (impossible) ou de manger grain de riz par grain de riz (interminable), on mange assiette par assiette : chaque assiette est un lot, et sa taille détermine le rythme des repas.
🎯 Exemple concret
Avec 1 000 exemples et une taille de lot de 100, le modèle traite 10 lots de 100 exemples par époque, en mettant à jour ses poids après chaque lot — soit 10 mises à jour par époque.
💡 Le saviez-vous ?
La taille du lot influence la qualité du modèle, pas seulement la vitesse : des lots plus petits introduisent un « bruit » dans le gradient qui aide souvent le modèle à mieux généraliser, tandis que de très grands lots peuvent converger vers des solutions moins robustes.
❓ Questions fréquentes
Qu'est-ce que la descente de gradient par mini-lots ?
C'est la méthode la plus courante : on calcule le gradient sur un petit lot d'exemples (ni tout le jeu de données, ni un seul exemple), pour combiner efficacité de calcul et stabilité raisonnable des mises à jour.
Faut-il choisir une grande ou une petite taille de lot ?
C'est un compromis : un grand lot est plus stable et exploite mieux le GPU mais consomme plus de mémoire et généralise parfois moins bien ; un petit lot est plus bruité mais souvent meilleur pour la généralisation.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
✉️
Restez informé
Recevez nos sélections d'outils et articles directement dans votre boîte courriel.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité