Piège
On choisit $\alpha$ trop grand parce que « ça converge plus vite » et la bille saute par-dessus le creux : la loss oscille ou diverge. On choisit $\alpha$ trop petit et l'entraînement n'avance plus — le diagnostic empirique est de tracer la loss au cours des époques et d'ajuster $\alpha$ d'un facteur 10 jusqu'à voir une décroissance régulière.