Modèle complet $A = \sigma(XW + b)$

Idée

Le modèle empile deux opérations : d'abord la combinaison pondérée, puis l'écrasement qui ramene chaque résultat dans (0,1) pour le lire comme une probabilite.

Outil

Composition de fonctions $\sigma \circ \mathrm{aff}$ avec $\mathrm{aff}(x) = Wx + b$, schéma familier d'analyse de spé.

Formule

Pour des etiquettes $y_i \in {0,1}$ et des probabilites predites $a_i \in (0,1)$, la perte LogLoss vaut $$\mathcal{L}(A, Y) ;=; -\dfrac{1}{m}\sum_{i=1}^{m} \Big( y_i \log a_i + (1 - y_i)\log(1 - a_i) \Big),$$ ou $m$ est le nombre d'exemples. Elle est positive, vaut $0$ si et seulement si $a_i = y_i$ pour tout $i$, et tend vers $+\infty$ quand on predit avec grande confiance la mauvaise classe (probabilite proche de $0$ pour la vraie classe).

Piège

Sans parenthèses, l'évaluation est (1/1) + np.exp(-Z) = 1 + e^(-Z) — pas du tout sigmoid. Erreur invisible si on ne vérifie pas par cas test (sigmoid(0) doit être 0.5, sigmoid(+inf) → 1). Très tentant car la phrase orale 'un sur un plus exponentielle de moins z' n'a pas de parenthèses audibles.