Backpropagation — remonter la chaîne de la sortie vers l'entrée

Piège

Backprop = backward = on commence par la dernière couche, pas la première. Pourquoi ? Parce que $\partial L/\partial W^{[1]}$ requiert $\partial L/\partial Z^{[2]}$ (chain rule). Si on calcule W^{[1]} avant, on n'a pas encore Z^{[2]}'s gradient. L'ordre est imposé par la chain rule : sortie → entrée.