Backpropagation — remonter la chaîne de la sortie vers l'entrée

Formule

Pour la dernière couche d'un réseau (ici $\ell = 2$), on pose $$dZ^{[2]} = \frac{\partial L}{\partial A^{[2]}} \cdot \frac{\partial A^{[2]}}{\partial Z^{[2]}}$$ comme abréviation des deux premiers maillons de la chaîne. Pour une couche plus profonde $\ell$, on définit récursivement $$dZ^{[\ell]} = dZ^{[\ell+1]} \cdot \frac{\partial Z^{[\ell+1]}}{\partial A^{[\ell]}} \cdot \frac{\partial A^{[\ell]}}{\partial Z^{[\ell]}}$$ ce qui simplifie l'écriture des gradients de tous les paramètres de la couche $\ell$. C'est une factorisation, pas un nouvel objet — exactement la même technique qu'isoler un facteur commun en algèbre.