Jakie metody optymalizacji działają najlepiej w przypadku LSTM?

20

Używałem theano do eksperymentowania z LSTM i zastanawiałem się, jakie metody optymalizacji (SGD, Adagrad, Adadelta, RMSprop, Adam itp.) Działają najlepiej dla LSTM? Czy są jakieś prace badawcze na ten temat?

Czy odpowiedź zależy również od rodzaju aplikacji, dla której używam LSTM? Jeśli tak, używam LSTM do klasyfikacji tekstu (gdzie tekst jest najpierw konwertowany na wektory słów).

Wreszcie, czy odpowiedzi byłyby takie same czy różne dla RNN? Wszelkie wskazówki do prac naukowych lub osobisty wgląd byłyby bardzo mile widziane!

LSTM wydają się być dość potężne i jestem zainteresowany dowiedzieć się więcej o tym, jak najlepiej z nich korzystać.

cydr
źródło

Odpowiedzi:

7

Jak na ironię, najlepszymi optymalizatorami dla LSTM są same LSTM: https://arxiv.org/abs/1606.04474 Nauka uczenia się poprzez opadanie gradientu przez opadanie gradientu.

Podstawową ideą jest użycie sieci neuronowej (szczególnie tutaj sieci LSTM) do wspólnej nauki i nauczania gradientów oryginalnej sieci. Nazywa się to meta learning.

Ta metoda, choć zaproponowana przez Juergena Schmidhubera w 2000 roku, dopiero niedawno wykazała, że ​​przewyższa inne optymalizatory w szkoleniu RNN. (patrz oryginalny papier, aby uzyskać ładną grafikę)

Anona112
źródło
Czy możesz to rozwinąć, mówiąc nam, co mówi link?
mdewey
poprawiony dla twojej przyjemności. Ponieważ pierwotne pytanie brzmiało: „Jakie metody optymalizacji działają najlepiej w przypadku LSTM?” nie „Jak działają najlepsze metody optymalizacji dla LSTM”. Pozostawiam to.
Anona112,
4

Zasadniczo nie ma jasnych dowodów, która metoda optymalizacji powinna być zastosowana w jakim scenariuszu. Przeanalizowano zachowanie tych metod w różnych scenariuszach, jednak nic nie jest rozstrzygające. Jeśli chcesz zagłębić się w te rzeczy, polecam: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optymalizacja.pdf

Aby przynajmniej dać ci jakąś odpowiedź, twierdzę, że często konfiguracja procedury optymalizacji jest ważniejsza niż sama procedura.

Ponadto polecam zajrzeć do artykułów, aby zobaczyć, jakie techniki są stosowane. Alex Graves z przykładu z powodzeniem korzysta z RMSprop w większości swoich publikacji dotyczących generowania sekwencji.

Sjoerd
źródło