Formule
La rétropropagation (backprop) est l'algorithme qui calcule efficacement les gradients de la fonction de coût par rapport à tous les paramètres d'un réseau profond. C'est la règle de la chaîne du calcul différentiel — la même que celle vue en MPSI pour dériver $f(g(x))$ — appliquée systématiquement à une pile de couches. On part de la sortie : on a $L = f_{\text{loss}}(A^{[L]}, y)$, et on calcule $\partial L / \partial Z^{[L]}$. Puis on remonte : $\partial L / \partial W^{[L]} = (\partial L / \partial Z^{[L]}) \cdot (\partial Z^{[L]} / \partial W^{[L]})$, etc. À chaque couche, on a besoin de deux choses : le gradient venant de la couche suivante (déjà calculé), et la dérivée locale de cette couche (facile, c'est juste $\sigma'$ et la matrice $W$). En une seule remontée — donc en un coût comparable à un seul passage avant — on obtient tous les gradients. Sans cet algorithme, calculer chaque $\partial L / \partial w_{ij}$ par différence finie coûterait un passage avant entier par paramètre, ce qui est impossible pour un réseau à des millions de poids. C'est l'astuce qui rend l'apprentissage profond praticable.