Idée
Quand un trait droit ne peut pas séparer les points, on plie l'espace en deux morceaux, et c'est dans cet espace plie qu'un trait droit suffit.
Outil
Changement de variable en analyse MPSI : on remplace x par u(x) bien choisi pour que l'integrale devienne calculable. Ici la couche cachée est le u(x).
Formule
Cell 4 du notebook fixe l'architecture pour XOR. Sans regarder, donner le nombre de neurones cachés et expliquer pourquoi un seul ne suffit pas.
Piège
Le notebook motive les 2 couches par XOR. Mais 2 couches ne 'résolvent' pas tout : elles ajoutent de la capacité d'expression non linéaire. Pour des problèmes franchement complexes (vision, langage), 2 couches peuvent toujours sous-fitter. Le théorème d'approximation universelle dit 'il existe' un réseau à 2 couches qui approxime, pas que celui que vous avez entraîné y arrive.