L'astuce $dZ$ : factoriser la base commune des gradients — formule · Réseaux de neurones

Formule

Avec coût log-loss $L = -\frac{1}{m}\sum [y \ln a + (1-y)\ln(1-a)]$ et activation sigmoïde ($\partial a / \partial z = a(1-a)$) en sortie, on a $dZ^{[2]} = \frac{1}{m}\sum (A^{[2]} - Y)$. La simplification vient du produit $[-y/a + (1-y)/(1-a)] \cdot a(1-a)$ qui se réduit à $a - y$ après que les termes $ay$ se compensent.