Par ordre de pilier
-
Tableau Numpy (ndarray)
-
Opérations `élément-par-élément` vs produit matriciel
-
Le perceptron — neurone artificiel à un seuil doux
-
Activation = la non-linéarité qui rend deux couches utiles
-
Cross-entropy : l'erreur d'une prédiction probabiliste
-
Descente de gradient — la bille qui descend la pente
-
Rétropropagation — la règle de la chaîne appliquée à une pile
-
Réseau à 2 couches (Multi-Layer Perceptron)
-
MNIST — chiffres manuscrits 28 x 28
-
Tableau Numpy — un sac de nombres ranges en grille
-
Table de verite des opérations booleennes (ET, OU, XOR)
-
Differentiation automatique Pytorch (`requires_grad=True`)
-
Frontière de décision dans le plan des entrées
-
Mini-batch SGD et $\mathrm{epochs}$
-
Plan de travail IA — vacances de printemps MPSI
-
Forme (shape) d'un tableau
-
Opérations élément par élément
-
Diffusion d'un scalaire (broadcasting de base)
-
Masque booléen
-
Tableau 1D : ni ligne, ni colonne
-
Vectorisation — boucler sans boucler
-
Notebook compagnon de la vidéo 5
-
Dataset booleen — les 4 coins du carre unite
-
Image 28×28 comme tableau de nombres
-
Vectorisation d'une image (aplatir 28×28 en 784)
-
Classification multi-classe (10 chiffres)
-
Jeu de données MNIST
-
Normalisation des pixels
-
Softmax pour la sortie
-
Entraînement par descente de gradient stochastique
-
Inférence par argmax
-
Accuracy (taux de bonnes prédictions)
-
Pourquoi deux couches : ce que le perceptron seul ne pouvait pas
-
Le dictionnaire `parametres` : un sac etiquete pour W1, b1, W2, b2
-
Autograd : le forward construit le graphe, backward le redescend
-
SGD : la bille qu'on pousse en aval du potentiel
-
Pont vers MNIST : ce réseau, plus large, lit les chiffres
-
Premier programme de neurone artificiel
-
Dataset $(X, Y)$ — 100 plantes à deux variables
-
Fonction d'initialisation des parametres
-
Forme linéaire $Z = X W + b$
-
Modèle complet $A = \sigma(XW + b)$
-
Descente de gradient — la bille dans la cuvette
-
Boucle d'apprentissage — `artificial_neuron`
-
Courbe d'apprentissage — l'erreur vue itération par itération
-
Frontière de décision $z = 0$
-
Pourquoi empiler des neurones — le perceptron seul est trop biaisé
-
Une couche de neurones — plusieurs détecteurs en parallèle
-
Empiler les couches — la sortie de l'une devient l'entrée de la suivante
-
Vectorisation d'une couche — un seul produit matriciel
-
Forward propagation — faire couler les données de la couche 1 jusqu'à la sortie
-
Coût d'un réseau et descente de gradient — le même geste qu'un seul neurone
-
Backpropagation — remonter la chaîne de la sortie vers l'entrée
-
Backpropagation : remonter le chemin pour calculer les pentes
-
Réseau à deux couches : architecture matricielle
-
Broadcasting : prêter une ligne à toutes les autres
-
L'astuce $dZ$ : factoriser la base commune des gradients
-
Vérification dimensionnelle : $\partial L / \partial \theta$ à la dimension de $\theta$
-
Réseau de neurones à deux couches
-
Paramètres en dictionnaire
-
Forward propagation
-
Backpropagation
-
Boucle d'entraînement (neural network)