Idée
Le même programme, en agrandissant juste les dimensions des tenseurs, apprend a reconnaitre des chiffres écrits à la main.
Pourquoi
Le notebook se termine en pointant vers le suivant : même architecture (deux couches, sigmoide, BCELoss, SGD, autograd), mais avec ne=784 (image 28x28 aplatie), nc=64 ou 128, ns=10. Aucune ligne de code structurelle ne change : seules les dimensions et la taille du dataset grossissent. C'est l'idée de scale : la même machine apprend XOR a 4 exemples et MNIST a 60000 ; ce qui change est la dimension de l'entrée et la patience de l'optimisation.
Outil
Comme un même schéma d'integration numérique resout aussi bien un oscillateur à un degre de liberte qu'un système planetaire : la methode est invariante d'echelle, seules les dimensions changent.
Formule
Vidéo 9 explique brièvement ce choix lors de l'animation. Sans regarder, donner la justification.
Piège
Vidéo 9 : 2, 4, 8, 16, 32 neurones cachés. Plus on augmente, mieux c'est... jusqu'à ce que. L'overfit arrive (modèle trop riche pour les données), le temps d'entraînement explose, et la mémoire saturé. La courbe accuracy(n_neurones) est concave puis plateau, pas monotone. La largeur optimale dépend de la quantité de données.