Literatura dogłębnego uczenia się jest pełna sprytnych sztuczek z wykorzystaniem niestałych wskaźników uczenia się przy opadaniu gradientowym. Rzeczy takie jak rozkład wykładniczy, RMSprop, Adagrad itp. Są łatwe do wdrożenia i są dostępne w każdym pakiecie dogłębnego uczenia się, ale wydają się nie istnieć poza sieciami neuronowymi. Czy jest jakiś powód tego? Jeśli jest tak, że ludzie po prostu się nie przejmują, czy istnieje powód, dla którego nie musimy przejmować się sieciami neuronowymi?
14
Odpowiedzi:
Uwaga: Nie mam zbyt dużego doświadczenia w optymalizacji poza sieciami neuronowymi, więc moja odpowiedź będzie wyraźnie stronnicza, ale jest kilka rzeczy, które odgrywają rolę:
(Głębokie) sieci neuronowe mają wiele parametrów . Ma to kilka implikacji:
Po pierwsze, w pewnym sensie wyklucza to metody wyższego rzędu po prostu dlatego, że obliczenie Hesji i wyższych pochodnych staje się niemożliwe. W innych domenach może to być poprawne podejście lepsze niż jakiekolwiek poprawki w SGD.
Po drugie, chociaż SGD jest cudowny , zwykle jest niepraktycznie wolny. Te ulepszone warianty SGD umożliwiają głównie szybszy trening, jednocześnie potencjalnie tracąc niektóre miłe właściwości SGD . W innych domenach czas szkolenia SGD może nie stanowić wąskiego gardła, więc ulepszenia uzyskane dzięki przyspieszeniu mogą być po prostu znikome.
Treningowe (głębokie) sieci neuronowe są niewypukłą optymalizacją i nie jestem świadomy znaczących wyników relaksacji wypukłości w terenie. W przeciwieństwie do innych dziedzin, sieci neuronowe nie koncentrują się na możliwych do udowodnienia globalnie optymalnych rozwiązaniach, co prowadzi do zwiększenia wysiłków w celu poprawy właściwości powierzchni strat i jej przejścia podczas optymalizacji.
W innych dziedzinach zastosowanie wypukłej relaksacji i uzyskanie globalnie optymalnych rozwiązań może być w centrum zainteresowania zamiast algorytmu optymalizacyjnego, ponieważ po zdefiniowaniu problemu jako wypukłego, wybór algorytmu optymalizacji nie może poprawić jakości rozwiązania .
Przypuszczam, że ta odpowiedź nie obejmuje wszystkich możliwych aspektów i jestem ciekawa innych opinii.
źródło