Coût d'un réseau et descente de gradient — le même geste qu'un seul neurone

Idée

On mesure l'erreur entre la prédiction et la vérité, on regarde comment cette erreur change quand on bouge chaque réglage, on déplace chaque réglage dans le sens qui fait baisser l'erreur.

Outil

C'est toujours la bille qui descend dans son potentiel ($-\nabla V$), sauf que le potentiel a plusieurs vallées emboîtées.

Formule

L'auteur rappelle que le gradient d'une fonction par rapport à un objet matriciel est un objet de mêmes dimensions que celui-ci. Justifier cette affirmation pour $\partial L/\partial W^{[\ell]}$ à partir de la définition du gradient.

Piège

Pour un réseau, $L$ dépend de $W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}$. La 'descente de gradient' touche TOUS les paramètres simultanément, pas séquentiellement. Erreur fréquente : entraîner W^{[1]} d'abord (couche par couche). En pratique on calcule TOUS les gradients (backprop) puis on met à jour TOUS les paramètres en parallèle.