Używałem theano do eksperymentowania z LSTM i zastanawiałem się, jakie metody optymalizacji (SGD, Adagrad, Adadelta, RMSprop, Adam itp.) Działają najlepiej dla LSTM? Czy są jakieś prace badawcze na ten temat?
Czy odpowiedź zależy również od rodzaju aplikacji, dla której używam LSTM? Jeśli tak, używam LSTM do klasyfikacji tekstu (gdzie tekst jest najpierw konwertowany na wektory słów).
Wreszcie, czy odpowiedzi byłyby takie same czy różne dla RNN? Wszelkie wskazówki do prac naukowych lub osobisty wgląd byłyby bardzo mile widziane!
LSTM wydają się być dość potężne i jestem zainteresowany dowiedzieć się więcej o tym, jak najlepiej z nich korzystać.
Zasadniczo nie ma jasnych dowodów, która metoda optymalizacji powinna być zastosowana w jakim scenariuszu. Przeanalizowano zachowanie tych metod w różnych scenariuszach, jednak nic nie jest rozstrzygające. Jeśli chcesz zagłębić się w te rzeczy, polecam: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optymalizacja.pdf
Aby przynajmniej dać ci jakąś odpowiedź, twierdzę, że często konfiguracja procedury optymalizacji jest ważniejsza niż sama procedura.
Ponadto polecam zajrzeć do artykułów, aby zobaczyć, jakie techniki są stosowane. Alex Graves z przykładu z powodzeniem korzysta z RMSprop w większości swoich publikacji dotyczących generowania sekwencji.
źródło