Par ordre de pilier

  1. Tableau Numpy (ndarray)
  2. Opérations `élément-par-élément` vs produit matriciel
  3. Le perceptron — neurone artificiel à un seuil doux
  4. Activation = la non-linéarité qui rend deux couches utiles
  5. Cross-entropy : l'erreur d'une prédiction probabiliste
  6. Descente de gradient — la bille qui descend la pente
  7. Rétropropagation — la règle de la chaîne appliquée à une pile
  8. Réseau à 2 couches (Multi-Layer Perceptron)
  9. MNIST — chiffres manuscrits 28 x 28
  10. Tableau Numpy — un sac de nombres ranges en grille
  11. Table de verite des opérations booleennes (ET, OU, XOR)
  12. Differentiation automatique Pytorch (`requires_grad=True`)
  13. Frontière de décision dans le plan des entrées
  14. Mini-batch SGD et $\mathrm{epochs}$
  15. Plan de travail IA — vacances de printemps MPSI
  16. Forme (shape) d'un tableau
  17. Opérations élément par élément
  18. Diffusion d'un scalaire (broadcasting de base)
  19. Masque booléen
  20. Tableau 1D : ni ligne, ni colonne
  21. Vectorisation — boucler sans boucler
  22. Notebook compagnon de la vidéo 5
  23. Dataset booleen — les 4 coins du carre unite
  24. Image 28×28 comme tableau de nombres
  25. Vectorisation d'une image (aplatir 28×28 en 784)
  26. Classification multi-classe (10 chiffres)
  27. Jeu de données MNIST
  28. Normalisation des pixels
  29. Softmax pour la sortie
  30. Entraînement par descente de gradient stochastique
  31. Inférence par argmax
  32. Accuracy (taux de bonnes prédictions)
  33. Pourquoi deux couches : ce que le perceptron seul ne pouvait pas
  34. Le dictionnaire `parametres` : un sac etiquete pour W1, b1, W2, b2
  35. Autograd : le forward construit le graphe, backward le redescend
  36. SGD : la bille qu'on pousse en aval du potentiel
  37. Pont vers MNIST : ce réseau, plus large, lit les chiffres
  38. Premier programme de neurone artificiel
  39. Dataset $(X, Y)$ — 100 plantes à deux variables
  40. Fonction d'initialisation des parametres
  41. Forme linéaire $Z = X W + b$
  42. Modèle complet $A = \sigma(XW + b)$
  43. Descente de gradient — la bille dans la cuvette
  44. Boucle d'apprentissage — `artificial_neuron`
  45. Courbe d'apprentissage — l'erreur vue itération par itération
  46. Frontière de décision $z = 0$
  47. Pourquoi empiler des neurones — le perceptron seul est trop biaisé
  48. Une couche de neurones — plusieurs détecteurs en parallèle
  49. Empiler les couches — la sortie de l'une devient l'entrée de la suivante
  50. Vectorisation d'une couche — un seul produit matriciel
  51. Forward propagation — faire couler les données de la couche 1 jusqu'à la sortie
  52. Coût d'un réseau et descente de gradient — le même geste qu'un seul neurone
  53. Backpropagation — remonter la chaîne de la sortie vers l'entrée
  54. Backpropagation : remonter le chemin pour calculer les pentes
  55. Réseau à deux couches : architecture matricielle
  56. Broadcasting : prêter une ligne à toutes les autres
  57. L'astuce $dZ$ : factoriser la base commune des gradients
  58. Vérification dimensionnelle : $\partial L / \partial \theta$ à la dimension de $\theta$
  59. Réseau de neurones à deux couches
  60. Paramètres en dictionnaire
  61. Forward propagation
  62. Backpropagation
  63. Boucle d'entraînement (neural network)