Jaka intuicja kryje się za rekurencyjną siecią neuronową Long Short Term Memory (LSTM)?

Idea Recurrent Neural Network (RNN) jest dla mnie jasna. Rozumiem to w następujący sposób:
Mamy sekwencję obserwacji ( ) (lub innymi słowy, wielowymiarowe szeregi czasowe). Każda pojedyncza obserwacja jest wymiarową wektor numeryczne. W modelu RNN zakładamy, że następna obserwacja jest funkcją wcześniejszej obserwacji a także poprzedniego „stanu ukrytego” , gdzie stany ukryte są również reprezentowane przez numeryczne wektory (wymiary stanów obserwowanych i ukrytych mogą być różne). Zakłada się również, że same stany ukryte zależą od poprzedniej obserwacji i stanu ukrytego: $\vec o_1, \vec o_2, \dots, \vec o_n$ $\vec o_i$ $N$ $\vec o_{i+1}$ $\vec o_{i}$ $\vec h_i$

$\vec o_i, \vec h_i = F (\vec o_{i-1}, \vec h_{i-1})$

Wreszcie w modelu RNN zakłada się , że funkcja jest siecią neuronową. Trenujemy (dopasowujemy) sieć neuronową, wykorzystując dostępne dane (sekwencja obserwacji). Naszym celem w treningu jest możliwość jak najdokładniejszego przewidzenia następnej obserwacji przy użyciu poprzednich obserwacji. $F$

Teraz sieć LSTM jest modyfikacją sieci RNN. O ile rozumiem, motywacją stojącą za LSTM jest rozwiązanie problemu krótkiej pamięci charakterystycznej dla RNN (konwencjonalne RNN mają problemy z powiązaniem zdarzeń, które są zbyt daleko od siebie oddzielone w czasie).

Rozumiem, jak działają sieci LSTM. Oto najlepsze wyjaśnienie LSTM , które znalazłem. Podstawowa idea jest następująca:

Oprócz wektora stanu ukrytego wprowadzamy tak zwany wektor „stanu komórki”, który ma ten sam rozmiar (wymiarowość) co wektor stanu ukrytego ( ). Myślę, że wektor „stanu komórki” został wprowadzony do modelowania pamięci długoterminowej. Podobnie jak w przypadku konwencjonalnego RNN, sieć LSTM otrzymuje na wejściu obserwowany i ukryty stan. Korzystając z tych danych wejściowych, obliczamy nowy „stan komórki” w następujący sposób: $\vec c_i$

$\vec c_{i+1} = \vec \omega_1 (\vec o_i, \vec h_i) \cdot \vec c_i + \vec \omega_2 (\vec o_i, \vec h_i) \cdot \vec c_{int} (\vec o_i, \vec h_i),$

gdzie funkcje , i są modelowane przez sieci neuronowe. Aby uprościć wyrażenie, po prostu usuwam argumenty: $\vec \omega_1$ $\vec \omega_2$ $\vec c_{int}$

$\vec c_{i+1} = \vec \omega_1 \cdot \vec c_i + \vec \omega_2 \cdot \vec c_{int}$

Widzimy więc, że nowy „wektor stanu komórki” ( ) jest sumą ważoną starego wektora stanu ( ) i „pośredniego” wektora stanu komórki ( ). Mnożenie między wektorami odbywa się w oparciu o komponenty (mnożymy dwa N-wymiarowe wektory i otrzymujemy w rezultacie inny N-wymiarowy wektor). Innymi słowy, mieszamy dwa wektory stanów komórek (stary i pośredni), stosując wagi właściwe dla składników. $\vec c_i$ $\vec c_{i-1}$ $\vec c_{int}$

Oto intuicja między opisanymi operacjami. Wektor stanu komórki można interpretować jako wektor pamięci. Drugi wektor wag (obliczony przez sieć neuronową) jest bramą „zachowaj” (lub zapomnij). Jego wartości decydują, czy zachować, czy zapomnieć (usunąć) odpowiednią wartość z wektora stanu komórki (lub wektora pamięci długoterminowej). Pierwszy wektor wag ( ), który jest obliczany przez inną sieć neuronową, nazywa się bramką „zapisz” lub „zapamiętaj”. Decyduje, czy nowa pamięć („pośredni” wektor stanu komórki) musi zostać zapisana (a ściślej, czy konkretny jej element musi zostać zapisany / zapisany). „Pośredni” $\vec \omega_2$ $\omega_1$ $\vec \omega_1$ wektor). Właściwie dokładniej byłoby powiedzieć, że z dwoma wektorami wag ( i ) „miksujemy” starą i nową pamięć. $\vec \omega_1$ $\vec \omega_2$

Po opisanym powyżej mieszaniu (lub zapominaniu i zapamiętywaniu) mamy nowy wektor stanu komórki. Następnie obliczamy „pośredni” stan ukryty za pomocą innej sieci neuronowej (jak poprzednio, jako dane wejściowe używamy stanu obserwowanego i stanu ukrytego ). Na koniec łączymy nowy stan komórki (pamięć) ze „pośrednim” stanem ukrytym ( ), aby uzyskać nowy (lub „końcowy”) stan ukryty, który faktycznie wyprowadzamy: $\vec o_i$ $\vec h_i$ $\vec h_{int}$

$\vec h_{i+1} = \vec h_{int} \cdot S(\vec c_{i+1}),$

gdzie jest funkcją sigmoidalną stosowaną do każdego komponentu wektora stanu komórki. $S$

Moje pytanie brzmi: dlaczego (lub jak dokładnie) ta architektura rozwiązuje problem?

W szczególności nie rozumiem co następuje:

Używamy sieci neuronowej do generowania pamięci „pośredniej” (wektor stanu komórki), która jest mieszana ze „starą” pamięcią (lub stanem komórki), aby uzyskać „nową” pamięć (stan komórki). Współczynniki ważenia dla mieszania są również obliczane przez sieci neuronowe. Ale dlaczego nie możemy użyć tylko jednej sieci neuronowej do obliczenia „nowego” stanu komórki (lub pamięci). Innymi słowy, dlaczego nie możemy wykorzystać stanu obserwowanego, stanu ukrytego i starej pamięci jako danych wejściowych do sieci neuronowej, która oblicza „nową” pamięć?
Na koniec używamy stanów obserwowanych i ukrytych do obliczenia nowego stanu ukrytego, a następnie używamy „nowego” stanu komórki (lub (długoterminowej) pamięci) do korygowania składnika nowo obliczonego stanu ukrytego. Innymi słowy, składniki stanu komórki są używane tak samo jak wagi, które po prostu zmniejszają odpowiednie składniki obliczonego stanu ukrytego. Ale dlaczego wektor stanu komórki jest używany w ten właśnie sposób? Dlaczego nie możemy obliczyć nowego stanu ukrytego poprzez umieszczenie wektora stanu komórki (pamięci długoterminowej) na wejściu sieci neuronowej (która również przyjmuje dane obserwowane i ukryte jako dane wejściowe)?

Dodany:

Oto wideo, które może pomóc wyjaśnić, w jaki sposób zorganizowane są różne bramki („zachowaj”, „napisz” i „przeczytaj”).

time-series neural-networks predictive-models intuition rnn rzymski
źródło

Wydaje się, że rozumiesz LSTM lepiej ode mnie, więc nie opublikuję rzeczywistej odpowiedzi, ponieważ może nie być to, czego szukasz: bramki LSTM (głównie bramki zapomnienia) pozwalają zachować tak długo aktywacje i gradienty jako niezbędne. Tak więc informacje w czasie t mogą być dostępne do czasu t + n, dla dowolnie dużego n.

rcpinto

@ rcpinto, myślę również, że główną ideą proponowanej „architektury” jest umożliwienie przechowywania informacji przez długi czas (wiele kroków czasowych). Ale nie rozumiem, co dokładnie umożliwia. Dwie sieci bramkowe („zachowaj” i „zapis”) mogą się dowiedzieć, że wagi utrzymujące powinny być duże, a wagi zapisujące małe (wtedy przechowujemy pamięć przez długi czas). Ale czy nie można tego osiągnąć tylko przez jedną sieć? Czy sieć neuronowa (która przyjmuje stan ukryty (pamięć) i stan obserwowalny jako dane wejściowe) nie może nauczyć się, że stan ukryty powinien być utrzymywany bez zmian?

Rzym.

Rzeczywiście, po prostu ustaw powtarzającą się macierz wagi na tożsamość i zawsze zachowa ostatnią aktywację. Problem jest zawsze częścią, co oznacza, że nowe dane będą się gromadzić i szybko nasycać aktywację neuronów, co jest również rodzajem zapominania. Dlatego kluczowa jest możliwość usunięcia poprzedniej pamięci lub zablokowania tworzenia nowych wspomnień.

rcpinto

@ rcpinto, ale czy nie można osiągnąć „możliwości wymazania poprzedniej pamięci lub zablokowania tworzenia nowej” w ramach jednej sieci neuronowej? Sieć neuronowa pobiera na wejściu wektor pamięci (lub ukryty wektor stanu) i obserwowany wektor stanu. Czy taka sieć nie może „zdecydować” o zachowaniu lub zastąpieniu niektórych składników stanu ukrytego (jego pamięci) na podstawie wartości składników w obserwowanym wektorze stanu?

Rzym.

LSTM mogą to zrobić, ponieważ bramki otwierają się lub zamykają zgodnie z bieżącym wejściem i stanem. Nie ma takiej koncepcji w prostych RNN. W takim przypadku sam stan zawsze reaguje na dane wejściowe / stan bezpośrednio i natychmiast, uniemożliwiając mu „wybranie”, czy zapisać nowe informacje. Ponadto nie ma mechanizmu kasowania pewnej przechowywanej pamięci, zawsze będzie się ona kumulować zgodnie z wagami wejściowymi do neuronu, a wagi te nie mogą się zmienić po treningu. Ponieważ bramki LSTM są multiplikatywne, symulują zmianę masy podczas wnioskowania, reagując na aktualny stan wejścia / stanu.

rcpinto

Jaka intuicja kryje się za rekurencyjną siecią neuronową Long Short Term Memory (LSTM)?

Odpowiedzi: