Formule
$Z^{(1)} = W^{(1)} X + b^{(1)}$ ; $A^{(1)} = \sigma(Z^{(1)})$ avec $\sigma$ la sigmoïde ; $Z^{(2)} = W^{(2)} A^{(1)} + b^{(2)}$ ; $A^{(2)} = \text{softmax}(Z^{(2)}, \dim=0)$. Le résultat $A^{(2)} \in \mathbb{R}^{10 \times m}$ contient pour chaque exemple les 10 probabilités de classe. L'argument dim=0 indique que la normalisation softmax se fait sur la dimension des classes (les lignes), pas sur celle des exemples.