Kluczowa różnica między GRU a LSTM polega na tym, że GRU ma dwie bramki (bramki resetowania i aktualizacji ), podczas gdy LSTM ma trzy bramki (mianowicie bramki wejścia , wyjścia i zapomnienia ).
Dlaczego korzystamy z GRU, skoro mamy wyraźniejszą kontrolę nad siecią dzięki modelowi LSTM (ponieważ mamy trzy bramki)? W którym scenariuszu preferowana jest GRU niż LSTM?
neural-network
deep-learning
Sayali Sonawane
źródło
źródło
Odpowiedzi:
GRU jest związane z LSTM, ponieważ oba wykorzystują inny sposób, jeśli bramkowanie informacji, aby zapobiec problemowi znikania gradientu. Oto niektóre kluczowe punkty dotyczące GRU vs. LSTM-
Szczegółowy opis można znaleźć w tym dokumencie badawczym - Arxiv.org . Artykuł doskonale to wszystko wyjaśnia.
Ponadto możesz przeglądać te blogi, aby uzyskać lepszy pomysł-
Mam nadzieję, że to pomoże!
źródło
* Aby uzupełnić już świetne odpowiedzi powyżej.
Z mojego doświadczenia wynika , że GRU trenują szybciej i osiągają lepsze wyniki niż LSTM przy mniejszej ilości danych szkoleniowych, jeśli wykonujesz modelowanie języka (nie jestem pewien co do innych zadań).
GRU są prostsze, a zatem łatwiejsze do modyfikacji, na przykład dodając nowe bramki w przypadku dodatkowego wejścia do sieci. Ogólnie jest to po prostu mniej kodu.
LSTM powinny teoretycznie pamiętać dłuższe sekwencje niż GRU i przewyższać je w zadaniach wymagających modelowania relacji na duże odległości.
* Niektóre dodatkowe dokumenty analizujące GRU i LSTM.
„Układy neuronowe uczą się algorytmów” (Łukasz Kaiser, Ilya Sutskever, 2015) https://arxiv.org/abs/1511.08228
„Badanie porównawcze CNN i RNN dla przetwarzania języka naturalnego” (Wenpeng Yin i in. 2017) https://arxiv.org/abs/1702.01923
źródło
Ta odpowiedź w rzeczywistości leży w zestawie danych i przypadku użycia. Trudno jednoznacznie stwierdzić, co jest lepsze.
źródło
FULL GRU Unit
Jednostka LSTM
Jak widać z równań, LSTM mają osobną bramkę aktualizacji i bramę zapomnienia. To wyraźnie czyni LSTM bardziej wyrafinowanymi, ale jednocześnie bardziej złożonymi. Nie ma prostego sposobu, aby zdecydować, którego użyć dla konkretnego przypadku użycia. Zawsze musisz wykonać próbę i błąd, aby przetestować wydajność. Ponieważ jednak GRU jest prostsze niż LSTM, treningi zajmują znacznie mniej czasu i są bardziej wydajne.
Kredyty: Andrew Ng
źródło
GRU jest lepszy niż LSTM, ponieważ jest łatwy do modyfikacji i nie wymaga jednostek pamięci, dlatego jest szybszy w trenowaniu niż LSTM i daje zgodnie z wydajnością.
źródło
Właściwie kluczowa różnica wydaje się być czymś więcej: perceptrony długookresowe (LSTM) są tworzone przy użyciu algorytmów pędu i gradientu gradientu. Po uzgodnieniu perceptronów LSTM z ich rekurencyjnymi odpowiednikami RNN, pojawia się GRU, który jest tak naprawdę tylko uogólnioną jednostką rekurencyjną lub jednostką gradientu rekurencyjnego (w zależności od kontekstu), która ściślej integruje algorytmy spadku i pędu. Gdybym to Ty, zrobiłbym więcej badań nad AdamOptimizerami.
Nawiasem mówiąc, GRU jest przestarzałą koncepcją. Rozumiem jednak, że badasz go, jeśli chcesz umiarkowanie zaawansowanej dogłębnej wiedzy na temat TF.
źródło