Activation = la non-linéarité qui rend deux couches utiles

Piège

Tentation classique : écrire Z2 = W2 @ Z1 + b2 au lieu de Z2 = W2 @ A1 + b2 — le code tourne, les shapes sont cohérentes. Mais sans la non-linéarité $A_1 = \sigma(Z_1)$ entre les deux couches, $Z_2 = W_2 W_1 X + \ldots$ se réduit à une seule transformation linéaire et le réseau n'apprend que des séparations affines.