Pytania oznaczone «lstm»

Długotrwała pamięć krótkoterminowa (LSTM) to architektura sieci neuronowej, która zawiera powtarzające się bloki NN, które mogą zapamiętywać wartość przez dowolny czas.

35
W jaki sposób LSTM zapobiega problemowi zanikania gradientu?

LSTM został opracowany specjalnie w celu uniknięcia problemu zanikania gradientu. Ma to zrobić za pomocą karuzeli Constant Error (CEC), która na poniższym schemacie ( Greff i in. ) Odpowiada pętli wokół komórki . (źródło: deeplearning4j.org ) Rozumiem, że ta część może być postrzegana jako...

23
Czym dokładnie są mechanizmy uwagi?

Mechanizmy uwagi były wykorzystywane w różnych artykułach Deep Learning w ciągu ostatnich kilku lat. Ilya Sutskever, kierownik badań w Open AI, entuzjastycznie je chwali: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello z Purdue University stwierdził, że RNN i...

20
Różnica między sprzężeniem zwrotnym RNN i LSTM / GRU

Próbuję zrozumieć różne architektury RNN (Recurrent Neural Network), które mają być zastosowane do danych szeregów czasowych, i zaczynam się mylić z różnymi nazwami, które są często używane przy opisywaniu RNN. Czy struktura Długiej pamięci krótkoterminowej (LSTM) i Gated Recurrent Unit (GRU) jest...

20
Dlaczego wagi sieci RNN / LSTM są dzielone w czasie?

Ostatnio zainteresowałem się LSTM i byłem zaskoczony, gdy dowiedziałem się, że wagi są dzielone w czasie. Wiem, że jeśli dzielisz wagi w czasie, to twoje wejściowe sekwencje czasowe mogą mieć zmienną długość. Dzielone ciężary pozwalają trenować o wiele mniej parametrów. Z mojego zrozumienia,...

16
RNN: kiedy stosować BPTT i / lub aktualizować wagi?

Próbuję zrozumieć ogólne zastosowanie RNN do znakowania sekwencji za pomocą (między innymi) artykułu Gravesa z 2005 r. Na temat klasyfikacji fonemów. Podsumowując problem: Mamy duży zestaw szkoleniowy składający się z (wejściowych) plików audio z pojedynczych zdań i (wyjściowych) opatrzonych...