Zalety układania LSTM?

Odpowiedzi:

7

Od Jakie są zalety układania wielu LSTM? (Zaktualizuję tylko odpowiedź):

Od 1}:

Chociaż teoretycznie nie jest jasne, jaka jest dodatkowa moc uzyskana przez głębszą architekturę, zaobserwowano empirycznie, że głębokie RNN działają lepiej niż płytsze w niektórych zadaniach. W szczególności Sutskever i wsp. (2014) podają, że głęboka 4-warstwowa architektura była kluczowa dla osiągnięcia dobrej wydajności tłumaczenia maszynowego w środowisku kodera-dekodera. Irsoy i Cardie (2014) również zgłosili lepsze wyniki przejścia z jednowarstwowego BI-RNN do architektury z kilkoma warstwami. Wiele innych prac zgłasza wyniki przy użyciu warstwowych architektur RNN, ale nie porównuje wprost z 1-warstwowymi RNN.


Bibliografia:

Franck Dernoncourt
źródło
5

Jedną z sytuacji, w której korzystne jest układanie LSTM w stos, jest sytuacja, gdy chcemy nauczyć się hierarchicznej reprezentacji naszych danych szeregów czasowych. W stosach LSTM każda warstwa LSTM wyprowadza sekwencję wektorów, które zostaną wykorzystane jako dane wejściowe do kolejnej warstwy LSTM. Ta hierarchia ukrytych warstw umożliwia bardziej złożoną reprezentację naszych danych szeregów czasowych, przechwytując informacje w różnych skalach.

Na przykład skumulowane LSTM mogą być używane do poprawy dokładności klasyfikacji szeregów czasowych, takich jak przewidywanie aktywności, w której tętno, licznik kroków, GPS i inne sygnały mogą być używane do przewidywania aktywności, takiej jak chodzenie, bieganie, jazda na rowerze, wchodzenie po schodach lub odpoczynek. Na przykład klasyfikacji szeregów czasowych ze stosami LSTM korzystającymi z danych EEG zajrzyj do następującego notesu ipython .

Vadim Smolyakov
źródło
1

Model sekwencji po sekwencji: Zadaniem sieci enkoderów jest odczytanie sekwencji wejściowej do naszego modelu Seq2Seq i wygenerowanie ustalonego wektora kontekstowego C dla sekwencji. Aby to zrobić, koder użyje rekurencyjnej komórki sieci neuronowej - zwykle LSTM - do odczytu tokenów wejściowych pojedynczo. Ostateczny ukryty stan komórki zmieni się wtedy w C. Jednak ponieważ tak trudno jest skompresować sekwencję o dowolnej długości do jednego wektora o stałej wielkości (szczególnie w przypadku trudnych zadań, takich jak translacja), koder zwykle składa się ze skumulowanych LSTM : seria „warstw” LSTM, w której wyjścia każdej warstwy są sekwencją wejściową do następnej warstwy. Stan ukryty LSTM ostatniej warstwy zostanie użyty jako wektor kontekstu.

Umer Rana
źródło