Pourquoi deux couches : ce que le perceptron seul ne pouvait pas

Idée

Quand un trait droit ne peut pas séparer les points, on plie l'espace en deux morceaux, et c'est dans cet espace plie qu'un trait droit suffit.

Pourquoi

Quand un trait droit ne peut pas séparer les points (XOR : deux croix sur la diagonale, deux ronds sur l'autre), on plie l'espace en deux morceaux, et c'est dans cet espace plie qu'un trait droit suffit. La couche cachée fabrique ce pli : c'est exactement comme un changement de variable bien choisi en MPSI qui transforme une integrale rebelle en integrale de cours.

Outil

Changement de variable en analyse MPSI : on remplace x par u(x) bien choisi pour que l'integrale devienne calculable. Ici la couche cachée est le u(x).

Formule

Cell 4 du notebook fixe l'architecture pour XOR. Sans regarder, donner le nombre de neurones cachés et expliquer pourquoi un seul ne suffit pas.

Piège

Le notebook motive les 2 couches par XOR. Mais 2 couches ne 'résolvent' pas tout : elles ajoutent de la capacité d'expression non linéaire. Pour des problèmes franchement complexes (vision, langage), 2 couches peuvent toujours sous-fitter. Le théorème d'approximation universelle dit 'il existe' un réseau à 2 couches qui approxime, pas que celui que vous avez entraîné y arrive.