Piège
Backprop en feedforward : on a besoin de A (activations) pour reconstituer le forward et de Z (pré-activations) pour calculer $\sigma'(Z) = A(1-A)$. Confondre Z et A donné des gradients faux. Le notebook stocke A1, A2 pendant le forward pour les réutiliser. Discipline : forward stocke ce qu'il faut pour backward.