MNIST — chiffres manuscrits 28 x 28 — piège

Piège

On alimente le réseau avec les pixels bruts (entiers de $0$ à $255$) et la première couche reçoit des valeurs deux ordres de grandeur trop grandes : la sigmoïde sature presque partout, les gradients sont nuls et rien n'apprend. Le réflexe : diviser par $255.0$ (et idéalement centrer-réduire) avant d'entrer dans le réseau, comme on standardise systématiquement en statistique avant une régression.