Autograd : le forward construit le graphe, backward le redescend — formule · Réseaux de neurones

Formule

Dans la boucle d'apprentissage (cellule 18), on trouve loss.backward(); optimizer.step(); optimizer.zero_grad(). Le commentaire signale : 'sinon ils sont cumules'. Decrire ce qui se passe si l'on retire zero_grad() : qu'arrive-t-il a parametres['W1'].grad après deux itérations ? Pourquoi ce comportement par defaut de pytorch (cumul plutot que remise a zero automatique) est-il en fait utile dans certaines situations ?