Jaka jest różnica między feed-forward i nawracających sieci neuronowej? Dlaczego miałbyś używać jednego nad drugim? Czy istnieją inne topologie sieci?
Powtarzalna sieć neuronowa (RNN) to klasa sztucznych sieci neuronowych, w których połączenia między jednostkami tworzą ukierunkowany cykl.
Jaka jest różnica między feed-forward i nawracających sieci neuronowej? Dlaczego miałbyś używać jednego nad drugim? Czy istnieją inne topologie sieci?
Przez jakiś czas studiowałem LSTM. Rozumiem na wysokim poziomie, jak wszystko działa. Jednak zamierzając je zaimplementować za pomocą Tensorflow, zauważyłem, że BasicLSTMCell wymaga szeregunum_units parametrów (tj. ) Parametrów. Z tego bardzo dokładnego wyjaśnienia LSTM wynika, że jedna...
Ostatnio czytałem, że nawracająca sieć neuronowa może aproksymować dowolny algorytm. Więc moje pytanie brzmi: co to dokładnie oznacza i czy możesz podać mi odniesienie, w którym zostało to
Jakie są zalety, dlaczego warto korzystać z wielu LSTM, ułożonych jeden obok drugiego, w sieci głębokiej? Używam LSTM do reprezentowania sekwencji danych wejściowych jako pojedynczego wejścia. Więc kiedy mam tę pojedynczą reprezentację - dlaczego miałbym ją powtórzyć? Pytam o to, ponieważ...
Mechanizmy uwagi były wykorzystywane w różnych artykułach Deep Learning w ciągu ostatnich kilku lat. Ilya Sutskever, kierownik badań w Open AI, entuzjastycznie je chwali: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello z Purdue University stwierdził, że RNN i...
To pytanie ma już odpowiedzi tutaj : Jak zmiana funkcji kosztów może być dodatnia? (1 odpowiedź) Co powinienem zrobić, gdy moja sieć neuronowa się nie uczy? (5 odpowiedzi) Zamknięte w zeszłym miesiącu . Trenuję model (Recurrent Neural Network) do...
Ostatnio zainteresowałem się LSTM i byłem zaskoczony, gdy dowiedziałem się, że wagi są dzielone w czasie. Wiem, że jeśli dzielisz wagi w czasie, to twoje wejściowe sekwencje czasowe mogą mieć zmienną długość. Dzielone ciężary pozwalają trenować o wiele mniej parametrów. Z mojego zrozumienia,...
Próbuję zrozumieć różne architektury RNN (Recurrent Neural Network), które mają być zastosowane do danych szeregów czasowych, i zaczynam się mylić z różnymi nazwami, które są często używane przy opisywaniu RNN. Czy struktura Długiej pamięci krótkoterminowej (LSTM) i Gated Recurrent Unit (GRU) jest...
RNN może być wykorzystywany do przewidywania lub mapowania sekwencji do sekwencji. Ale w jaki sposób można użyć RNN do klasyfikacji? Dajemy całej sekwencji jedną
Przeglądam następujący blog na sieci neuronowej LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Autor przekształca wektor wejściowy X jako [próbki, przedziały czasowe, cechy] dla różnych konfiguracji LSTM. Autor pisze Rzeczywiście,...
Próbuję zrozumieć ogólne zastosowanie RNN do znakowania sekwencji za pomocą (między innymi) artykułu Gravesa z 2005 r. Na temat klasyfikacji fonemów. Podsumowując problem: Mamy duży zestaw szkoleniowy składający się z (wejściowych) plików audio z pojedynczych zdań i (wyjściowych) opatrzonych...
Szukam projektu optycznego rozpoznawania znaków (OCR). Po przeprowadzeniu badań natrafiłem na architekturę, która wydaje się interesująca: CNN + RNN + CTC. Znam zwinięte sieci neuronowe (CNN) i rekurencyjne sieci neuronowe (RNN), ale czym jest klasyfikacja czasowa łącznika (CTC)? Chciałbym...
W nawracającej sieci neuronowej zwykle propagujesz w przód przez kilka kroków czasowych, „rozwijasz” sieć, a następnie w tył propagujesz w sekwencji danych wejściowych. Dlaczego po prostu nie aktualizowałbyś wag po każdym indywidualnym kroku w sekwencji? (odpowiednik użycia długości obcięcia 1,...
Które problemy z sekwencyjnym wejściem są najbardziej odpowiednie dla każdego? Czy wymiar wejściowy określa, które z nich jest lepsze? Czy problemy wymagające „dłuższej pamięci” lepiej pasują do RNN LSTM, podczas gdy problemy z cyklicznymi wzorcami wprowadzania danych (giełda, pogoda) są łatwiejsze...
Mam podstawową wiedzę na temat działania RNN (a zwłaszcza jednostek LSTM). Mam obrazowe wyobrażenie o architekturze jednostki LSTM, czyli komórki i kilku bramek, które regulują przepływ wartości. Jednak najwyraźniej nie do końca zrozumiałem, w jaki sposób LSTM rozwiązuje problem „znikania i...
Idea Recurrent Neural Network (RNN) jest dla mnie jasna. Rozumiem to w następujący sposób: Mamy sekwencję obserwacji ( ) (lub innymi słowy, wielowymiarowe szeregi czasowe). Każda pojedyncza obserwacja jest wymiarową wektor numeryczne. W modelu RNN zakładamy, że następna obserwacja jest funkcją...
Korzystam z dwukierunkowego RNN, aby wykryć zdarzenie niezrównoważonego wystąpienia. Klasa dodatnia jest 100 razy rzadziej niż klasa negatywna. Chociaż nie używa się regularyzacji, mogę uzyskać 100% dokładności na zestawie pociągów i 30% na zestawie walidacji. Włączam regularyzację l2, a wynik to...
Pracuję nad dokumentem Cho 2014, który wprowadził architekturę kodera-dekodera do modelowania seq2seq. W pracy wydaje się, że wykorzystują one prawdopodobieństwo wyjścia podanego wejścia (lub jego logarytmiczne prawdopodobieństwo) jako funkcję straty dla wejścia o długości i wyjścia o długości N...
Tak jak wielu innych, znalazłem tu i tutaj zasoby niezwykle przydatne do zrozumienia komórek LSTM. Jestem pewien, że rozumiem, w jaki sposób wartości płyną i są aktualizowane, i jestem wystarczająco pewny, aby dodać wspomniane „połączenia z wizjerami” itp. W moim przykładzie za każdym razem mam...