Idée
Imagine une bille posee sur le flanc d'une colline accidentee : à chaque instant, elle bouge un peu dans la direction de la plus grande pente vers le bas.
Pourquoi
Imagine une bille posee sur le flanc d'une colline accidentee : à chaque instant, elle bouge un peu dans la direction de la plus grande pente vers le bas. C'est exactement ce que font les pas de mise a jour $W \leftarrow W - \alpha \cdot dW$ et $b \leftarrow b - \alpha \cdot db$ ou $\alpha$ est le learning_rate. Mecaniquement, c'est l'analogue continu $\dot{W}(t) = -\nabla \mathcal{L}(W(t))$ d'une particule sans inertie dans le potentiel $\mathcal{L}$, vu en mecanique L1 ; la version discrète est l'algorithme d'Euler explicite avec pas $\alpha$. Attention : le pas $\alpha$ est le paramètre le plus capricieux : trop grand, la bille saute la cuvette ; trop petit, elle n'arrive jamais. C'est l'hyperparamètre qu'on ajuste en premier.
Outil
Analogue continu $\dot{W}(t) = -\nabla \mathcal{L}(W(t))$ d'une particule sans inertie dans le potentiel $\mathcal{L}$ ; version discrète = schéma d'Euler explicite avec pas $\alpha$.
Formule
$W \leftarrow W - \alpha \cdot \nabla_W \mathcal{L}$, $b \leftarrow b - \alpha \cdot \nabla_b \mathcal{L}$ ; $\alpha$ est le pas (learning rate).
Piège
On choisit $\alpha$ trop grand parce que « ça converge plus vite » et la bille saute par-dessus le creux : la loss oscille ou diverge. On choisit $\alpha$ trop petit et l'entraînement n'avance plus — le diagnostic empirique est de tracer la loss au cours des époques et d'ajuster $\alpha$ d'un facteur 10 jusqu'à voir une décroissance régulière.
Diagramme
graph TD
init((W b initiaux)) --> grad[calculer pente dW db]
grad --> step[W <- W - alpha dW]
step --> test{erreur stable ?}
test -->|non| grad
test -->|oui| fin((bille au creux))