Descente de gradient

Terme Intermédiaire 🧠 Concepts fondamentaux

Mis à jour le 22 juillet 2026

En bref

La descente de gradient met à jour les paramètres d'un modèle, petit pas par petit pas, dans la direction qui réduit le plus la fonction de perte.

📖 Définition

La descente de gradient est une méthode d'optimisation itérative qui ajuste les paramètres d'un modèle en suivant la pente de la fonction de perte. Elle applique la règle θ = θ − η·∇L(θ), où η est le taux d'apprentissage et ∇L(θ) le gradient de la perte par rapport aux paramètres θ. À chaque itération, on fait un petit pas dans la direction qui fait le plus baisser l'erreur. Il existe plusieurs variantes : la descente par lot complet, la descente stochastique (SGD, un exemple à la fois), la descente par mini-lots, ainsi que des optimiseurs avancés comme Adam ou l'ajout de momentum, qui accélèrent et stabilisent la convergence. Dans les réseaux de neurones, elle s'appuie sur les gradients calculés par la rétropropagation pour minimiser la fonction de perte. C'est l'un des moteurs essentiels de l'apprentissage automatique moderne.

💬 En termes simples

C'est comme descendre une colline dans un épais brouillard : on ne voit pas la vallée, alors on tâte le sol sous ses pieds et, à chaque pas, on avance dans la direction où ça descend le plus, jusqu'à atteindre le point le plus bas.

🎯 Exemple concret

Avec un taux d'apprentissage de 0,1, si un poids vaut 0,5 et que son gradient est de 0,2, le nouveau poids devient 0,5 − 0,1 × 0,2 = 0,48. En répétant ce calcul des milliers de fois sur l'ensemble des poids, le modèle converge vers une erreur minimale.

💡 Le saviez-vous ?

Le taux d'apprentissage est un réglage critique : trop grand, l'algorithme « saute » par-dessus le minimum et diverge ; trop petit, l'entraînement devient extrêmement lent et peut rester coincé.

❓ Questions fréquentes

Qu'est-ce que le taux d'apprentissage ?

C'est l'hyperparamètre qui fixe la taille des pas lors de la mise à jour des paramètres ; il contrôle la vitesse et la stabilité de l'apprentissage.

Quelle différence avec la descente de gradient stochastique (SGD) ?

La SGD met à jour les paramètres à partir d'un seul exemple (ou d'un mini-lot) à la fois, au lieu de tout le jeu de données, ce qui accélère l'entraînement.

Accueil

Outils

Annuaire

Apprendre