Descente de gradient — la bille qui descend la pente — formule · Réseaux de neurones

Formule

Notant $\alpha$ le learning_rate (taux d'apprentissage) et $dW = \partial \mathcal{L}/\partial W$, $db = \partial \mathcal{L}/\partial b$, la mise a jour SGD du perceptron est : $$W \leftarrow W - \alpha \cdot dW, \qquad b \leftarrow b - \alpha \cdot db.$$ Le PDF utilise $\alpha = 0{,}1$ pour la version Numpy (p6) et $\alpha = 1{,}1$ pour la version Pytorch (p6, apprentissage_t) — la difference est volontaire pour distinguer visuellement les deux courbes d'erreur. La version Pytorch passe par optim.SGD([Wt, bt], lr=alpha) puis optimizer.step().