Idée
On a besoin de savoir comment chaque coefficient profond influence l'erreur en sortie ; on fait remonter l'information depuis la sortie en multipliant à chaque étape par la dérivée locale.
Outil
Règle de la chaîne $(f \circ g \circ h)' = f'(g(h)) \cdot g'(h) \cdot h'$ d'analyse MPSI, mecanisee sur un graphe d'opérations.
Formule
$(f \circ g \circ h)'(x) = f'(g(h(x))) \cdot g'(h(x)) \cdot h'(x)$ ; appliquée à une pile : $\frac{\partial \mathcal{L}}{\partial W_\ell} = \frac{\partial \mathcal{L}}{\partial a_L} \prod_{k=\ell+1}^{L} \frac{\partial a_k}{\partial a_{k-1}} \cdot \frac{\partial a_\ell}{\partial W_\ell}$.
Piège
On dérive couche par couche depuis l'entrée vers la sortie et on s'étonne que les gradients des couches profondes soient faux. L'ordre est inversé : la rétropropagation part du gradient de la loss en sortie et le fait remonter couche par couche en multipliant par la dérivée locale — c'est exactement la règle de la chaîne lue de droite à gauche.