Toutes les formules

Toutes les entrées du corpus pour ce mode. Les liens pointent vers la page du concept ; le contenu reste là-bas.

Sommaire alphabétique

Accuracy (taux de bonnes prédictions)
Activation = la non-linéarité qui rend deux couches utiles
Autograd : le forward construit le graphe, backward le redescend
Backpropagation
Backpropagation : remonter le chemin pour calculer les pentes
Backpropagation — remonter la chaîne de la sortie vers l'entrée
Boucle d'apprentissage — `artificial_neuron`
Boucle d'entraînement (neural network)
Broadcasting : prêter une ligne à toutes les autres
Classification multi-classe (10 chiffres)
Courbe d'apprentissage — l'erreur vue itération par itération
Coût d'un réseau et descente de gradient — le même geste qu'un seul neurone
Cross-entropy : l'erreur d'une prédiction probabiliste
Dataset $(X, Y)$ — 100 plantes à deux variables
Dataset booleen — les 4 coins du carre unite
Descente de gradient — la bille dans la cuvette
Descente de gradient — la bille qui descend la pente
Differentiation automatique Pytorch (`requires_grad=True`)
Diffusion d'un scalaire (broadcasting de base)
Empiler les couches — la sortie de l'une devient l'entrée de la suivante
Entraînement par descente de gradient stochastique
Fonction d'initialisation des parametres
Forme (shape) d'un tableau
Forme linéaire $Z = X W + b$
Forward propagation
Forward propagation — faire couler les données de la couche 1 jusqu'à la sortie
Frontière de décision $z = 0$
Frontière de décision dans le plan des entrées
Image 28×28 comme tableau de nombres
Inférence par argmax
Jeu de données MNIST
L'astuce $dZ$ : factoriser la base commune des gradients
Le dictionnaire `parametres` : un sac etiquete pour W1, b1, W2, b2
Le perceptron — neurone artificiel à un seuil doux
Masque booléen
Mini-batch SGD et $\mathrm{epochs}$
MNIST — chiffres manuscrits 28 x 28
Modèle complet $A = \sigma(XW + b)$
Normalisation des pixels
Notebook compagnon de la vidéo 5
Opérations `élément-par-élément` vs produit matriciel
Opérations élément par élément
Paramètres en dictionnaire
Plan de travail IA — vacances de printemps MPSI
Pont vers MNIST : ce réseau, plus large, lit les chiffres
Pourquoi deux couches : ce que le perceptron seul ne pouvait pas
Pourquoi empiler des neurones — le perceptron seul est trop biaisé
Premier programme de neurone artificiel
Réseau de neurones à deux couches
Réseau à 2 couches (Multi-Layer Perceptron)
Réseau à deux couches : architecture matricielle
Rétropropagation — la règle de la chaîne appliquée à une pile
SGD : la bille qu'on pousse en aval du potentiel
Softmax pour la sortie
Table de verite des opérations booleennes (ET, OU, XOR)
Tableau 1D : ni ligne, ni colonne
Tableau Numpy (ndarray)
Tableau Numpy — un sac de nombres ranges en grille
Une couche de neurones — plusieurs détecteurs en parallèle
Vectorisation d'une couche — un seul produit matriciel
Vectorisation d'une image (aplatir 28×28 en 784)
Vectorisation — boucler sans boucler
Vérification dimensionnelle : $\partial L / \partial \theta$ à la dimension de $\theta$

Par ordre de pilier

Tableau Numpy (ndarray)
Opérations `élément-par-élément` vs produit matriciel
Le perceptron — neurone artificiel à un seuil doux
Activation = la non-linéarité qui rend deux couches utiles
Cross-entropy : l'erreur d'une prédiction probabiliste
Descente de gradient — la bille qui descend la pente
Rétropropagation — la règle de la chaîne appliquée à une pile
Réseau à 2 couches (Multi-Layer Perceptron)
MNIST — chiffres manuscrits 28 x 28
Tableau Numpy — un sac de nombres ranges en grille
Table de verite des opérations booleennes (ET, OU, XOR)
Differentiation automatique Pytorch (`requires_grad=True`)
Frontière de décision dans le plan des entrées
Mini-batch SGD et $\mathrm{epochs}$
Plan de travail IA — vacances de printemps MPSI
Forme (shape) d'un tableau
Opérations élément par élément
Diffusion d'un scalaire (broadcasting de base)
Masque booléen
Tableau 1D : ni ligne, ni colonne
Vectorisation — boucler sans boucler
Notebook compagnon de la vidéo 5
Dataset booleen — les 4 coins du carre unite
Image 28×28 comme tableau de nombres
Vectorisation d'une image (aplatir 28×28 en 784)
Classification multi-classe (10 chiffres)
Jeu de données MNIST
Normalisation des pixels
Softmax pour la sortie
Entraînement par descente de gradient stochastique
Inférence par argmax
Accuracy (taux de bonnes prédictions)
Pourquoi deux couches : ce que le perceptron seul ne pouvait pas
Le dictionnaire `parametres` : un sac etiquete pour W1, b1, W2, b2
Autograd : le forward construit le graphe, backward le redescend
SGD : la bille qu'on pousse en aval du potentiel
Pont vers MNIST : ce réseau, plus large, lit les chiffres
Premier programme de neurone artificiel
Dataset $(X, Y)$ — 100 plantes à deux variables
Fonction d'initialisation des parametres
Forme linéaire $Z = X W + b$
Modèle complet $A = \sigma(XW + b)$
Descente de gradient — la bille dans la cuvette
Boucle d'apprentissage — `artificial_neuron`
Courbe d'apprentissage — l'erreur vue itération par itération
Frontière de décision $z = 0$
Pourquoi empiler des neurones — le perceptron seul est trop biaisé
Une couche de neurones — plusieurs détecteurs en parallèle
Empiler les couches — la sortie de l'une devient l'entrée de la suivante
Vectorisation d'une couche — un seul produit matriciel
Forward propagation — faire couler les données de la couche 1 jusqu'à la sortie
Coût d'un réseau et descente de gradient — le même geste qu'un seul neurone
Backpropagation — remonter la chaîne de la sortie vers l'entrée
Backpropagation : remonter le chemin pour calculer les pentes
Réseau à deux couches : architecture matricielle
Broadcasting : prêter une ligne à toutes les autres
L'astuce $dZ$ : factoriser la base commune des gradients
Vérification dimensionnelle : $\partial L / \partial \theta$ à la dimension de $\theta$
Réseau de neurones à deux couches
Paramètres en dictionnaire
Forward propagation
Backpropagation
Boucle d'entraînement (neural network)

← Retour au sommaire

écrit pour toi · pas pour l'algorithme — socratique