Idée
On mesure l'erreur entre la prédiction et la vérité, on regarde comment cette erreur change quand on bouge chaque réglage, on déplace chaque réglage dans le sens qui fait baisser l'erreur.
Pourquoi
Pour entraîner un réseau, on procède exactement comme pour un seul neurone : on mesure l'erreur entre la prédiction et la vérité avec une fonction coût, on regarde comment cette erreur change quand on bouge chaque paramètre, on déplace chaque paramètre dans le sens qui fait baisser l'erreur. La nouveauté n'est pas le principe — c'est le calcul des dérivées partielles, parce qu'il y a maintenant plusieurs étages entre un paramètre et la sortie. Image MPSI : c'est toujours la bille qui descend dans son potentiel, sauf que le potentiel a plusieurs vallées emboîtées.
Outil
C'est toujours la bille qui descend dans son potentiel ($-\nabla V$), sauf que le potentiel a plusieurs vallées emboîtées.
Formule
L'auteur rappelle que le gradient d'une fonction par rapport à un objet matriciel est un objet de mêmes dimensions que celui-ci. Justifier cette affirmation pour $\partial L/\partial W^{[\ell]}$ à partir de la définition du gradient.
Piège
Pour un réseau, $L$ dépend de $W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}$. La 'descente de gradient' touche TOUS les paramètres simultanément, pas séquentiellement. Erreur fréquente : entraîner W^{[1]} d'abord (couche par couche). En pratique on calcule TOUS les gradients (backprop) puis on met à jour TOUS les paramètres en parallèle.