Descente de gradient — la bille qui descend la pente

Idée

Imagine une bille posee sur le flanc d'une colline accidentee : à chaque instant, elle bouge un peu dans la direction de la plus grande pente vers le bas.

Outil

Analogue continu $\dot{W}(t) = -\nabla \mathcal{L}(W(t))$ d'une particule sans inertie dans le potentiel $\mathcal{L}$ ; version discrète = schéma d'Euler explicite avec pas $\alpha$.

Formule

$W \leftarrow W - \alpha \cdot \nabla_W \mathcal{L}$, $b \leftarrow b - \alpha \cdot \nabla_b \mathcal{L}$ ; $\alpha$ est le pas (learning rate).

Piège

On choisit $\alpha$ trop grand parce que « ça converge plus vite » et la bille saute par-dessus le creux : la loss oscille ou diverge. On choisit $\alpha$ trop petit et l'entraînement n'avance plus — le diagnostic empirique est de tracer la loss au cours des époques et d'ajuster $\alpha$ d'un facteur 10 jusqu'à voir une décroissance régulière.