Formule
MNIST est le "hello world" de l'apprentissage profond : 70 000 images de chiffres manuscrits 0-9, chacune en niveaux de gris 28×28 pixels, étiquetées avec le bon chiffre. Pipeline complet : (1) prétraitement — aplatir chaque image en un vecteur $x$ de 784 valeurs, normaliser entre 0 et 1 (diviser par 255) ; (2) architecture — un MLP, par exemple $784 \to 128 \to 10$ : couche d'entrée (784), couche cachée (128 neurones avec ReLU), couche de sortie (10 neurones, un par chiffre) ; (3) softmax — sur les 10 sorties, $\text{softmax}(z)_k = e^{z_k} / \sum_j e^{z_j}$, ce qui donne 10 probabilités qui somment à 1 ; (4) prédiction — argmax sur les 10 probas donné le chiffre prédit ; (5) entraînement — pour les 60 000 images d'entraînement, on calcule la cross-entropy entre la distribution prédite et la one-hot du vrai chiffre, on rétropropage pour mettre à jour les poids par SGD, en répétant sur des mini-batches (par exemple 64 images à la fois) pendant 10-20 epochs (passages complets sur tout le dataset) ; (6) évaluation — on mesure l'accuracy sur les 10 000 images de test jamais vues. Un MLP simple atteint 95-97% ; les architectures convolutionnelles modernes (CNN) dépassent 99.5%.