Próbuję zrozumieć różne architektury RNN (Recurrent Neural Network), które mają być zastosowane do danych szeregów czasowych, i zaczynam się mylić z różnymi nazwami, które są często używane przy opisywaniu RNN. Czy struktura Długiej pamięci krótkoterminowej (LSTM) i Gated Recurrent Unit (GRU) jest zasadniczo RNN z pętlą sprzężenia zwrotnego?
neural-networks
lstm
rnn
Josie
źródło
źródło
Odpowiedzi:
Wszystkie RNN mają pętle sprzężenia zwrotnego w warstwie rekurencyjnej. To pozwala im utrzymywać informacje w „pamięci” w miarę upływu czasu. Jednak szkolenie standardowych sieci RNN może być trudne do rozwiązania problemów wymagających uczenia się długoterminowych zależności czasowych. Wynika to z tego, że gradient funkcji straty maleje wykładniczo z czasem (zwany problemem znikania gradientu). Sieci LSTM są rodzajem RNN, który oprócz jednostek standardowych używa specjalnych jednostek. Jednostki LSTM zawierają „komórkę pamięci”, która może przechowywać informacje w pamięci przez długi czas. Zestaw bramek służy do kontrolowania, kiedy informacja wchodzi do pamięci, kiedy jest wyprowadzana i kiedy jest zapomniana. Ta architektura pozwala im nauczyć się zależności długoterminowych. GRU są podobne do LSTM, ale używają uproszczonej struktury.
Ten dokument zawiera dobry przegląd:
źródło
Standardowe RNN (Recurrent Neural Networks) cierpią z powodu znikania i eksplodowania problemów z gradientem. LSTM (Long Short Term Memory) radzą sobie z tymi problemami poprzez wprowadzenie nowych bramek, takich jak bramki wejściowe i zapomniane, które pozwalają na lepszą kontrolę przepływu gradientu i pozwalają lepiej zachować „zależności dalekiego zasięgu”.
źródło
LSTM są często nazywane fantazyjnymi RNN. Waniliowe RNN nie mają stanu komórki. Mają tylko stany ukryte, a te stany ukryte służą jako pamięć dla RNN.
Tymczasem LSTM ma zarówno stany komórkowe, jak i stany ukryte. Stan komórki ma zdolność do usuwania lub dodawania informacji do komórki, regulowanych przez „bramki”. Z powodu tej „komórki” teoretycznie LSTM powinien być w stanie poradzić sobie z długoterminową zależnością (w praktyce trudno to zrobić).
źródło
TL; DR
[ UWAGA ]:
LSTM to rozszerzona wersja GRU.
Ten obraz pokazuje różnicę między nimi:
źródło