Stokastisk gradientnedstigning innledes med stokastisk tilnærming som først beskrevet av Robbins og Monro i papiret, En stokastisk tilnærmingsmetode . Kiefer og Wolfowitz publiserte deretter oppgaven sin, Stochastic Estimation of the Maximum of a Regression Function , som er mer gjenkjennelig for folk som er kjent med ML-varianten av Stochastic Approximation (dvs. Stochastic Gradient Descent ), som Mark Stone påpekte i kommentarene. På 60-tallet så det mye forskning langs den veinen - Dvoretzky, Powell, Blum alle publiserte resultater som vi tar for gitt i dag. Det er et relativt lite sprang å komme fra Robbins and Monro-metoden til Kiefer Wolfowitz-metoden, og bare en omformulering av problemet for deretter å komme til Stochastic Gradient Descent (for regresjonsproblemer). Ovennevnte papirer er mye sitert som fortilfellene til Stochastic Gradient Descent, som nevnt i denne gjennomgangspapiret av Nocedal, Bottou og Curtis, som gir et kort historisk perspektiv fra et maskinlæringsperspektiv.
Jeg tror at Kushner og Yin i boken deres Stochastic Approximation and Recursive Algorithms and Applications antyder at forestillingen hadde blitt brukt i kontrollteori helt tilbake til 40-tallet, men jeg husker ikke om de hadde en sitering for det eller om det var anekdotisk, og jeg har heller ikke tilgang til boken deres for å bekrefte dette.
Herbert Robbins og Sutton Monro En stokastisk tilnærmingsmetode
Annals of Mathematical Statistics, Vol. 22, nr. 3 (september 1951), s. 400-407.
J. Kiefer og J. Wolfowitz Stochastic Estimation of the Maximum of a Regression Function Ann. Matte. Statist. Volum 23, nummer 3 (1952), 462-466
Leon Bottou og Frank E. Curtis og Jorge Nocedal Optimaliseringsmetoder for maskinlæring i stor skala , teknisk rapport, arXiv: 1606.04838