Idée
On dispose de 60 000 images d'entrainement, chacune en niveaux de gris sur une grille 28 x 28, representant un chiffre manuscrit entre 0 et 9 ; on aplatit chaque image en un vecteur de 784 nombres.
Outil
Nuage de points etiquetes dans $\mathbb{R}^{784}$ avec etiquettes dans ${0, \ldots, 9}$ ; aplatissement = vectorisation par ligne d'une matrice $28 \times 28$.
Formule
Image $\in \mathbb{R}^{28 \times 28}$ aplatie en $x \in \mathbb{R}^{784}$ ; batch $X \in \mathbb{R}^{784 \times m}$, étiquettes $y \in {0, \ldots, 9}^m$.
Piège
On alimente le réseau avec les pixels bruts (entiers de $0$ à $255$) et la première couche reçoit des valeurs deux ordres de grandeur trop grandes : la sigmoïde sature presque partout, les gradients sont nuls et rien n'apprend. Le réflexe : diviser par $255.0$ (et idéalement centrer-réduire) avant d'entrer dans le réseau, comme on standardise systématiquement en statistique avant une régression.