Jaki jest powód, dla którego Adam Optimizer jest uważany za odporny na wartość swoich hiper parametrów?

24

Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Deep Learning autorstwa Bengio, Goodfellow i Courville:

Adam jest ogólnie uważany za dość odpornego na wybór hiper parametrów, chociaż szybkość uczenia się czasami trzeba zmienić w stosunku do sugerowanego domyślnego.

jeśli to prawda, jest to wielka sprawa, ponieważ wyszukiwanie hiperparametrów może być naprawdę ważne (przynajmniej z mojego doświadczenia) w statystycznej wydajności systemu głębokiego uczenia się. Zatem moje pytanie brzmi: dlaczego Adam Robust spełnia tak ważne parametry? Specjalnie i ?β1β2)

Przeczytałem artykuł Adama i nie wyjaśnia on, dlaczego działa z tymi parametrami ani dlaczego jest niezawodny. Czy uzasadniają to gdzie indziej?

Ponadto, gdy czytam artykuł, wydaje się, że liczba hiper parametrów, które wypróbowali, była bardzo mała, dla tylko 2 i dla tylko 3. Jak to może być dokładne badanie empiryczne, jeśli działa tylko na hiperparametrach 2x3 ?β1β2)

Charlie Parker
źródło
1
Wyślij wiadomość e-mail do autorów książki, którzy zgłosili roszczenie. Zapytaj ich, na czym opiera się roszczenie.
Mark L. Stone,
1
@ MarkL.Stone powiedział tylko, że to powiedział, ponieważ powiedział to streszczenie. Trudno przekonujący argument. Może następnym razem wyślę e-mail do autorów faktycznej pracy.
Charlie Parker,
7
I tak autopromocja staje się faktem.
Mark L. Stone,
@ MarkL.Stone w swojej obronie, mógł być zajęty, aby odpowiedzieć poprawnie, a ja skontaktowałem się tylko z 1 z 3 autorów. Może mógłbym skontaktować się z innymi, ale nie jestem pewien, czy odpowiedzą, biorąc pod uwagę (przynajmniej), że jeden jest profesorem. Z szumem w DL założę się, że dostaje 300 e-maili dziennie.
Charlie Parker,
7
Teraz, gdy książka została wydana, autorzy Adama mają potwierdzenie, jak wspaniały jest ich algorytm. Przypomina mi trzęsienie ziemi w Bay Area w 1989 roku. Wiadomości ze stacji radiowej przekazały niepotwierdzony raport o liczbie ofiar śmiertelnych w wyniku zawalenia się autostrady - poinformowały, że szukają potwierdzenia w biurze gubernatora. Potem zadzwonili do gubernatora i zapytali, czy może potwierdzić liczbę ofiar śmiertelnych. Powiedział, że to właśnie usłyszał. Stacja radiowa poinformowała następnie, że otrzymała potwierdzenie od gubernatora. Okazuje się, że gubernator miał na myśli, że usłyszał to, jak się okazuje, w tej stacji radiowej. Tak więc okrągłe potwierdzenie.
Mark L. Stone,

Odpowiedzi:

7

Jeśli chodzi o dowody dotyczące roszczenia, uważam, że jedyne dowody na poparcie roszczenia można znaleźć na rycinie 4 w ich pracy . Pokazują ostateczne wyniki w zakresie różnych wartości dla , β 2 i α .β1β2)α

β1β2) α

Cliff AB
źródło
5

β1β2)

Kontrastuje to z klasycznym waniliowym stochastycznym spadkiem gradientu, w którym:

  • wskaźniki uczenia się nie są na parametr, ale istnieje jeden, globalny wskaźnik uczenia się, który jest stosowany tępo we wszystkich parametrach
    • (nawiasem mówiąc, jest to jeden z powodów, dla których dane są często wybierane, znormalizowane przed wysłaniem do sieci, aby spróbować utrzymać idealną wagę dla każdego parametru na podobnym poziomie)
  • podana szybkość uczenia się jest dokładną zastosowaną szybkością uczenia się i nie dostosowuje się z czasem

Adam nie jest jedynym optymistą z adaptacyjnymi wskaźnikami uczenia się. Jak stwierdza sam artykuł Adama, jest on wysoce powiązany z Adagrad i Rmsprop, które są również wyjątkowo niewrażliwe na hiperparametry. Szczególnie Rmsprop działa całkiem nieźle.

Ale Adam jest ogólnie najlepszy. Z nielicznymi wyjątkami Adam zrobi, co chcesz :)

Istnieje kilka dość patologicznych przypadków, w których Adam nie zadziała, szczególnie w przypadku niektórych bardzo niestacjonarnych dystrybucji. W takich przypadkach Rmsprop jest doskonałą opcją gotowości. Ale ogólnie rzecz biorąc, w większości niepatologicznych przypadków Adam działa wyjątkowo dobrze.

Hugh Perkins
źródło
1
β1,β2)
Tak, jeśli masz na myśli: „czy jest tu okazja, aby głębiej zbadać, dlaczego?”, Cóż… może.
Hugh Perkins,
2
to nie jest „głębsze pytanie”. To wydaje się jednym z najważniejszych punktów tego artykułu, prawda? Chodzi o to, że robi rzeczy „samo”, ale są też inne hiperparametry, które wydają się magicznie solidne. Taki mam problem. Wydaje mi się, że jest to związane z rdzeniem artykułu, chyba że źle zrozumiałem sens Adama.
Charlie Parker,
„Istnieje kilka dość patologicznych przypadków, w których Adam nie zadziała, szczególnie w przypadku niektórych bardzo niestacjonarnych dystrybucji”. <- jakieś odniesienia tutaj?
mimoralea
0

Patrząc na formuły ADAM, wydaje się nieco zastanawiające, że po bardzo dużej liczbie iteracji wsadowych (powiedzmy ~ 400k) wielkość samego gradientu opartego na błędach nie odgrywa żadnej rzeczywistej roli w podjętym kroku, który wydaje się aspirować parametr konfiguracyjny szybkości uczenia się w odpowiednim znaku.
Być może ADAM lepiej kontroluje dostosowanie wagi niż zwykły SGD podczas pierwszych iteracji / epok, ale kontynuacja aktualizacji wydaje się być zredukowana do czegoś naiwnego (?) Czy ktoś może podać intuicję, dlaczego tak naprawdę jest pożądany i / lub zwykle działa dobrze?

Danny Rosen
źródło
W rzeczywistości wydaje się, że sama wielkość gradientu oparta na błędach nie odgrywa prawdziwej roli, nawet od samego początku. Pytanie brzmi, dlaczego taka normalizacja działa dobrze i co to oznacza w odniesieniu do intuicji GD kierującej DL i innych popularnych modeli uczenia się?
Danny Rosen