Idée
Une image en niveaux de gris est un tableau rectangulaire de petits carrés (les pixels), chacun contenant un nombre qui dit à quel point le carré est sombre ou clair.
Pourquoi
Une image en niveaux de gris est un tableau rectangulaire de petits carrés (les pixels), chacun contenant un nombre qui dit à quel point le carré est sombre ou clair. Ici, chaque chiffre manuscrit est un tableau de 28 lignes et 28 colonnes, soit 784 cases — exactement comme une matrice de coefficients réels.
Outil
Une matrice $M \in \mathcal{M}_{28,28}(\mathbb{R})$ comme en spé d'algèbre — sauf que les entrées vivent dans $[0, 1]$ (intensité lumineuse) au lieu de $\mathbb{R}$ entier.
Formule
Cell 1-7 fixe l'architecture du réseau MNIST. Sans regarder, donner les nombres exacts d'entrées et de sorties, et leur justification.
Piège
Pour un MLP qui voit un vecteur 784, chaque pixel devient une feature scalaire. Mais 'pixel' à une sémantique 2D (position, voisins), 'feature' n'a pas de structure spatiale. Penser en termes de pixels fait croire que le réseau exploite la proximité ; il ne le fait pas. Penser en termes de features force à reconnaître que l'ordre des 784 entrées est arbitraire — on pourrait les permuter avant entraînement, le réseau apprendrait aussi bien.