Image 28×28 comme tableau de nombres — piège

Piège

Pour un MLP qui voit un vecteur 784, chaque pixel devient une feature scalaire. Mais 'pixel' à une sémantique 2D (position, voisins), 'feature' n'a pas de structure spatiale. Penser en termes de pixels fait croire que le réseau exploite la proximité ; il ne le fait pas. Penser en termes de features force à reconnaître que l'ordre des 784 entrées est arbitraire — on pourrait les permuter avant entraînement, le réseau apprendrait aussi bien.