Porzucasz na jakich warstwach LSTM?

11

Używając wielowarstwowej LSTMz usuwaniem, czy wskazane jest umieszczenie zrzutu na wszystkich ukrytych warstwach, a także na wyjściowych warstwach gęstych? W artykule Hintona (który zaproponował Dropout) umieścił Dropout tylko na gęstych warstwach, ale to dlatego, że ukryte wewnętrzne warstwy były splotowe.

Oczywiście mogę przetestować mój konkretny model, ale zastanawiałem się, czy istnieje konsensus w tej sprawie?

BigBadMe
źródło
3
dobra dyskusja na temat przerywania pracy w sieciach nawracających w tym artykule, jeśli jesteś zainteresowany: arxiv.org/abs/1512.05287 Gal, Yarin i Zoubin Ghahramani. „Teoretycznie uzasadnione zastosowanie przerywania w nawracających sieciach neuronowych”. Postępy w systemach przetwarzania informacji neuronowych. 2016.
redhqs
2
Wydaje się, że potwierdza to, co @Media powiedziała poniżej
BigBadMe,

Odpowiedzi:

12

Wolę nie dodawać kropli w LSTMkomórkach z jednego konkretnego i jasnego powodu. LSTMssą dobre na długie terminy, ale ważną rzeczą w nich jest to, że nie są zbyt dobre w zapamiętywaniu wielu rzeczy jednocześnie. Logika wypadania polega na dodawaniu szumu do neuronów, aby nie być zależnym od żadnego konkretnego neuronu. Dodając drop out do LSTMkomórek, istnieje szansa na zapomnienie czegoś, o czym nie należy zapominać. W związku z tym, tak jak CNNszawsze, wolę używać kropli w gęstych warstwach po LSTMwarstwach.

Głoska bezdźwięczna
źródło
1
Rozumiem, co mówisz, i ma to sens, ale dlaczego implementacja komórki LSTM w Keras lub Tensorflow zapewnia możliwość określenia rezygnacji (i powtarzalnej rezygnacji), jeśli w efekcie podważy to, w jaki sposób LSTM ma funkcjonować?
BigBadMe,
3
W CNNsjest całkowicie dopuszczalne, aby ich nie stosować u Conv warstw ze względu na niewielką liczbę odważników splotowych warstwy. Z LSTMsdrugiej strony liczba ciężarków nie jest niewielka. Jak wspomniałem w zadaniach, że istnieje wiele rzeczy, które należy zapamiętać, staram się nie używać rezygnacji, ale to tak jak w czasownikach, że nie masz wielu zależności, myślę, że nie jest bardzo źle. Nawiasem mówiąc, to było moje doświadczenie. Mogą istnieć inne odpowiedzi dla różnych domen aplikacji.
Media
1
Wielkie wyjaśnienie przez obie odpowiedzi! (+ 1)
Aditya
5

Nie ma konsensusu, który można udowodnić we wszystkich typach modeli.

Myślenie o rezygnacji jako formie regularyzacji, o tym, ile z niej zastosować (i gdzie), z natury będzie zależeć od rodzaju i wielkości zbioru danych, a także od złożoności zbudowanego modelu (jak duży jest).

n1k31t4
źródło