Activation = la non-linéarité qui rend deux couches utiles — complet · Réseaux de neurones

Idée

Sans une fonction qui coude le signal entre les deux couches, deux couches collees ne valent qu'une couche : on retombe sur un trait droit dans le plan d'origine.

Pourquoi

Si on enchaine $W_2 (W_1 X + b_1) + b_2$ sans rien entre les deux, on obtient encore une transformation linéaire (un seul plan affine), et le pli n'a pas eu lieu. La fonction sigmoide $\sigma(z) = 1/(1+e^{-z})$ insérée après chaque couche écrase les valeurs entre 0 et 1 et coude la droite : c'est elle qui plie. Sans elle, deux couches valent une couche. Le piège : sans non-linéarité, dix couches valent une seule. La sigmoïde n'est pas un détail cosmétique, c'est elle qui plie l'espace.

Outil

Composition de deux applications linéaires reste linéaire (cours d'algèbre linéaire MPSI) : la non-linéarité est ce qui casse cette stabilite et permet d'enrichir l'espace des fonctions representables.

Formule

Sans activation non-linéaire, deux couches successives $W_2(W_1 x + b_1) + b_2$ se collapsent en une seule transformation linéaire $W' x + b'$ — empiler ne sert à rien, on a toujours juste un perceptron. C'est pour ça qu'on insère une fonction non-linéaire $\sigma$ entre les couches : $W_2 \sigma(W_1 x + b_1) + b_2$. Cette fonction casse la linéarité et permet au réseau de courber ses frontières de décision. Trois activations classiques : (i) la sigmoïde $\sigma(z) = 1/(1+e^{-z})$, lisse, entre 0 et 1, utilisée historiquement et pour la sortie binaire ; (ii) la tangente hyperbolique $\tanh$, version centrée en 0 ; (iii) le ReLU $\max(0, z)$, qui ne s'écrase pas pour les grandes valeurs et a remplacé la sigmoïde dans les couches cachées modernes. Le rôle de l'activation est purement de plier la ligne droite ; sans elle, pas d'apprentissage de motifs complexes comme XOR ou la reconnaissance d'images.

Piège

Tentation classique : ecrire Z2 = W2 @ Z1 + b2 au lieu de Z2 = W2 @ A1 + b2. Le code tourne, les shapes sont coherentes, mais le réseau apprend mal : il est mathematiquement équivalent à un perceptron simple ($W_2 W_1 X + (W_2 b_1 + b_2)$ est une transformation affine), donc incapable d'apprendre XOR. Symptome : la loss stagne autour de la valeur d'un classifieur linéaire (~0.69 pour XOR).