Dlaczego nie zawsze stosować technikę optymalizacji ADAM?

13

Wydaje się, że optymalizator Adaptive Moment Estimation (Adam) prawie zawsze działa lepiej (szybciej i bardziej niezawodnie osiąga globalne minimum) przy minimalizacji funkcji kosztów w szkoleniu sieci neuronowych.

Dlaczego nie zawsze używać Adama? Po co męczyć się przy użyciu RMSProp lub optymalizatorów pędu?

PyRsquared
źródło
1
Nie wierzę, że istnieje jakikolwiek ścisły, sformalizowany sposób na poparcie któregokolwiek z oświadczeń. Wszystko to jest czysto empiryczne, ponieważ powierzchnia błędu jest nieznana. Zasadniczo, i wyłącznie z doświadczenia m, ADAM radzi sobie dobrze tam, gdzie inni zawodzą (segmentacja instancji), choć nie bez wad (konwergencja nie jest monotonna)
Alex
2
Adam szybciej się zbiega. SGD jest wolniejszy, ale lepiej się uogólnia. Na koniec wszystko zależy od konkretnych okoliczności.
agcala

Odpowiedzi:

5

Powinieneś także spojrzeć na ten post porównujący różne optymalizatory spadku gradientu. Jak widać poniżej, Adam najwyraźniej nie jest najlepszym optymalizatorem dla niektórych zadań, ponieważ wiele z nich lepiej się zbiera.


źródło
Dla przypomnienia: w powiązanym artykule wspominają niektóre wady ADAM i przedstawiają AMSGrad jako rozwiązanie. Stwierdzają jednak, że to, czy AMSGrad przewyższa ADAM w praktyce, nie jest (w momencie pisania) jednoznaczne.
Lus,