Modèle complet $A = \sigma(XW + b)$ — formule · Réseaux de neurones

Formule

Pour des etiquettes $y_i \in {0,1}$ et des probabilites predites $a_i \in (0,1)$, la perte LogLoss vaut $$\mathcal{L}(A, Y) ;=; -\dfrac{1}{m}\sum_{i=1}^{m} \Big( y_i \log a_i + (1 - y_i)\log(1 - a_i) \Big),$$ ou $m$ est le nombre d'exemples. Elle est positive, vaut $0$ si et seulement si $a_i = y_i$ pour tout $i$, et tend vers $+\infty$ quand on predit avec grande confiance la mauvaise classe (probabilite proche de $0$ pour la vraie classe).