Coût d'un réseau et descente de gradient — le même geste qu'un seul neurone

Piège

Pour un réseau, $L$ dépend de $W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}$. La 'descente de gradient' touche TOUS les paramètres simultanément, pas séquentiellement. Erreur fréquente : entraîner W^{[1]} d'abord (couche par couche). En pratique on calcule TOUS les gradients (backprop) puis on met à jour TOUS les paramètres en parallèle.