Idée
Une dérivée par rapport à un objet a toujours exactement la forme de cet objet.
Outil
Comme une carte qui doit recouvrir le même territoire : à chaque case correspond une case.
Formule
On veut calculer $\partial L / \partial W^{[2]}$. Le gradient doit avoir la même dimension que $W^{[2]}$, soit $(n_2, n_1)$. On dispose de $dZ^{[2]}$ de dimension $(n_2, m)$ et de $A^{[1]}$ de dimension $(n_1, m)$. Justifiez en raisonnant sur les dimensions pourquoi la formule correcte est $dZ^{[2]} \cdot (A^{[1]})^T$ et non $dZ^{[2]} \cdot A^{[1]}$ ou $dZ^{[2]} \odot A^{[1]}$.
Piège
Quand un produit matriciel ne tombe pas sur les bonnes dimensions, le réflexe est de transposer un opérande. Mais transposer $W^{[2]}$ au lieu de $A^{[1]}$ (ou réciproquement) peut donner une dimension valide tout en calculant un objet faux. Le contrôle dimensionnel est nécessaire mais pas suffisant : il faut aussi vérifier que la chaîne de dérivation produit bien le bon facteur (ici $\partial Z^{[2]}/\partial A^{[1]} = W^{[2]}$ donc c'est bien $W^{[2]}$ qu'on transpose pour $dZ^{[1]}$).