Idée
On rebrousse le chemin parcouru à l'aller pour calculer comment chaque réglage influe sur l'erreur finale.
Outil
Règle de la chaîne en spé : pour dériver une composition $f \circ g \circ h$, on dérive de l'extérieur vers l'intérieur en multipliant les dérivées.
Formule
Vidéo 8 explique l'ordre par la chain rule. Sans regarder, justifier mathématiquement cet ordre.
Piège
Backprop en feedforward : on a besoin de A (activations) pour reconstituer le forward et de Z (pré-activations) pour calculer $\sigma'(Z) = A(1-A)$. Confondre Z et A donné des gradients faux. Le notebook stocke A1, A2 pendant le forward pour les réutiliser. Discipline : forward stocke ce qu'il faut pour backward.