Réseau à deux couches : architecture matricielle

Idée

On enchaîne deux étages : chacun multiplie les entrées par une grille de coefficients, ajoute un décalage, puis passe le tout dans un tordeur.

Pourquoi

On enchaîne deux étages : chacun multiplie les entrées par une grille de coefficients, ajoute un décalage, puis passe le tout dans un tordeur (l'activation). Comme deux systèmes linéaires en algèbre L1, mis bout à bout, séparés par une fonction non-linéaire pour empêcher la composition de tout aplatir. La sortie de l'étage 1 ($A^{[1]}$) devient l'entrée de l'étage 2.

Outil

Comme deux systèmes linéaires en algèbre L1 mis bout à bout, séparés par une non-linéarité.

Formule

$Z^{[1]} = W^{[1]} X + b^{[1]}$ puis $A^{[1]} = \sigma(Z^{[1]})$, avec $W^{[1]}$ de dimension $(n_1, n_0)$, $b^{[1]}$ de dimension $(n_1, 1)$, $X$ de dimension $(n_0, m)$. Le résultat $Z^{[1]}$ est de dimension $(n_1, m)$. L'addition de $b^{[1]}$ utilise le broadcasting : la colonne $(n_1, 1)$ est étendue à $(n_1, m)$.

Piège

Vidéo 8 utilise X de shape (n_0, m) et Y de shape (1, m) (features en lignes, exemples en colonnes). Différent de la convention vidéo 5 ((m, n_0)). Si on copie-colle du code vidéo 5 dans le contexte vidéo 8, dimensions incompatibles. Toujours vérifier la convention au début de chaque vidéo.