Entraînement par descente de gradient stochastique

Piège

Pattern correct : forward → loss → backward → step → zero_grad. Si on met zero_grad après forward et avant backward, on perd les gradients précédents avant de pouvoir les utiliser — pas de mise à jour. Si on l'oublie, accumulation des gradients d'une itération à l'autre. Le notebook Cell 15 le fait dans le bon ordre : loss.backward(); optimizer.step(); optimizer.zero_grad().