Wydaje się, że optymalizator Adaptive Moment Estimation (Adam) prawie zawsze działa lepiej (szybciej i bardziej niezawodnie osiąga globalne minimum) przy minimalizacji funkcji kosztów w szkoleniu sieci neuronowych.
Dlaczego nie zawsze używać Adama? Po co męczyć się przy użyciu RMSProp lub optymalizatorów pędu?
neural-network
optimization
PyRsquared
źródło
źródło
Odpowiedzi:
Oto post na blogu opisujący artykuł, w którym twierdzi, że SGD jest lepiej uogólnionym adapterem niż ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/
Często warto zastosować więcej niż jedną metodę (zbiór), ponieważ każda metoda ma słabość.
źródło
Powinieneś także spojrzeć na ten post porównujący różne optymalizatory spadku gradientu. Jak widać poniżej, Adam najwyraźniej nie jest najlepszym optymalizatorem dla niektórych zadań, ponieważ wiele z nich lepiej się zbiera.
źródło