Piège
Le notebook motive les 2 couches par XOR. Mais 2 couches ne 'résolvent' pas tout : elles ajoutent de la capacité d'expression non linéaire. Pour des problèmes franchement complexes (vision, langage), 2 couches peuvent toujours sous-fitter. Le théorème d'approximation universelle dit 'il existe' un réseau à 2 couches qui approxime, pas que celui que vous avez entraîné y arrive.