Formule
Pour un réseau avec $n_0$ entrées, $n_1$ neurones en couche cachée, $n_2$ neurones en couche de sortie : $W^{(1)} \in \mathbb{R}^{n_1 \times n_0}$, $b^{(1)} \in \mathbb{R}^{n_1 \times 1}$, $W^{(2)} \in \mathbb{R}^{n_2 \times n_1}$, $b^{(2)} \in \mathbb{R}^{n_2 \times 1}$. La matrice $X$ est transposée en $\mathbb{R}^{n_0 \times m}$ où $m$ est le nombre d'exemples.