Staram się zrozumieć historię zejścia gradientowego i stochastycznego . Gradientowe zejście zostało wynalezione w Cauchy w 1847 roku. Méthode générale pour la résolution des systèmes d'équations symultanes . str. 536–538 Więcej informacji na ten temat można znaleźć tutaj .
Od tego czasu metody zejścia gradientowego ciągle się rozwijają i nie znam ich historii. W szczególności interesuje mnie wynalazek stochastycznego spadku.
Odniesienie, które może być wykorzystane w pracy naukowej w bardziej niż mile widziane.
Odpowiedzi:
Stochastyczne zejście gradientu poprzedza Stochastic Approximation, jak po raz pierwszy opisali Robbins i Monro w swojej pracy A Stochastic Approximation Method . Kiefer i Wolfowitz opublikowali następnie swój artykuł, Stochastic Estimation of Maximum of a Regression Functionco jest bardziej rozpoznawalne dla osób zaznajomionych z wariantem ML aproksymacji stochastycznej (tj. stochastycznego spadku gradientu), jak zauważył Mark Stone w komentarzach. W latach sześćdziesiątych przeprowadzono wiele badań w tym zakresie - Dvoretzky, Powell, Blum - wszystkie opublikowane wyniki, które dzisiaj przyjmujemy za pewnik. Jest to stosunkowo niewielki skok z metody Robbinsa i Monro do metody Kiefera Wolfowitza, a jedynie zmiana definicji problemu, aby następnie przejść do stochastycznego spadku gradientu (w przypadku problemów z regresją). Powyższe artykuły są powszechnie cytowane jako poprzedniki Stochastic Gradient Descent, jak wspomniano w tym artykule przeglądowym Nocedal, Bottou i Curtis , który przedstawia krótką perspektywę historyczną z punktu widzenia uczenia maszynowego.
Uważam, że Kushner i Yin w swojej książce Stochastic Approximation oraz Recursive Algorytms and Applications sugerują, że pojęcie to było używane w teorii kontroli już w latach 40., ale nie pamiętam, czy mieli na to jakieś uzasadnienie, czy też był anegdotyczne, ani nie mam dostępu do ich książki, aby to potwierdzić.
źródło
Widzieć
Nie jestem pewien, czy SGD został wynaleziony wcześniej w literaturze optymalizacyjnej - prawdopodobnie tak było - ale tutaj sądzę, że opisuje zastosowanie SGD do trenowania perceptronu.
Nazywa te „dwoma rodzajami wzmocnienia”.
Odwołuje się także do książki o tych „systemach biwalentnych”.
źródło