Piège
On dérive couche par couche depuis l'entrée vers la sortie et on s'étonne que les gradients des couches profondes soient faux. L'ordre est inversé : la rétropropagation part du gradient de la loss en sortie et le fait remonter couche par couche en multipliant par la dérivée locale — c'est exactement la règle de la chaîne lue de droite à gauche.