Używając wielowarstwowej LSTM
z usuwaniem, czy wskazane jest umieszczenie zrzutu na wszystkich ukrytych warstwach, a także na wyjściowych warstwach gęstych? W artykule Hintona (który zaproponował Dropout) umieścił Dropout tylko na gęstych warstwach, ale to dlatego, że ukryte wewnętrzne warstwy były splotowe.
Oczywiście mogę przetestować mój konkretny model, ale zastanawiałem się, czy istnieje konsensus w tej sprawie?
neural-network
lstm
rnn
dropout
stacked-lstm
BigBadMe
źródło
źródło
Odpowiedzi:
Wolę nie dodawać kropli w
LSTM
komórkach z jednego konkretnego i jasnego powodu.LSTMs
są dobre na długie terminy, ale ważną rzeczą w nich jest to, że nie są zbyt dobre w zapamiętywaniu wielu rzeczy jednocześnie. Logika wypadania polega na dodawaniu szumu do neuronów, aby nie być zależnym od żadnego konkretnego neuronu. Dodając drop out doLSTM
komórek, istnieje szansa na zapomnienie czegoś, o czym nie należy zapominać. W związku z tym, tak jakCNNs
zawsze, wolę używać kropli w gęstych warstwach poLSTM
warstwach.źródło
CNNs
jest całkowicie dopuszczalne, aby ich nie stosować u Conv warstw ze względu na niewielką liczbę odważników splotowych warstwy. ZLSTMs
drugiej strony liczba ciężarków nie jest niewielka. Jak wspomniałem w zadaniach, że istnieje wiele rzeczy, które należy zapamiętać, staram się nie używać rezygnacji, ale to tak jak w czasownikach, że nie masz wielu zależności, myślę, że nie jest bardzo źle. Nawiasem mówiąc, to było moje doświadczenie. Mogą istnieć inne odpowiedzi dla różnych domen aplikacji.Nie ma konsensusu, który można udowodnić we wszystkich typach modeli.
Myślenie o rezygnacji jako formie regularyzacji, o tym, ile z niej zastosować (i gdzie), z natury będzie zależeć od rodzaju i wielkości zbioru danych, a także od złożoności zbudowanego modelu (jak duży jest).
źródło