Activation = la non-linéarité qui rend deux couches utiles

Idée

Sans une fonction qui coude le signal entre les deux couches, deux couches collees ne valent qu'une couche : on retombe sur un trait droit dans le plan d'origine.

Outil

Composition de deux applications linéaires reste linéaire (cours d'algèbre linéaire MPSI) : la non-linéarité est ce qui casse cette stabilite et permet d'enrichir l'espace des fonctions representables.

Formule

$\sigma(z) = 1/(1 + e^{-z})$ ou $\mathrm{ReLU}(z) = \max(0, z)$, appliquée élément-par-élément entre deux couches : $A_1 = \sigma(W_1 X + b_1)$.

Piège

Tentation classique : écrire Z2 = W2 @ Z1 + b2 au lieu de Z2 = W2 @ A1 + b2 — le code tourne, les shapes sont cohérentes. Mais sans la non-linéarité $A_1 = \sigma(Z_1)$ entre les deux couches, $Z_2 = W_2 W_1 X + \ldots$ se réduit à une seule transformation linéaire et le réseau n'apprend que des séparations affines.