Jakie jest intuicyjne wyjaśnienie Echo State Networks?

17

Jestem nowy w Recurrent Neural Networks (RNN) i wciąż uczę się pojęć. Rozumiem na poziomie abstrakcyjnym, że Echo State Network (ESN) jest w stanie (ponownie) wytwarzać sekwencję sygnałów wejściowych, tj. Sygnał, nawet po ich usunięciu. Jednak artykuł Scholarpedia był dla mnie zbyt trudny do zrozumienia i zrozumienia.

Czy ktoś może wyjaśnić matematyczny sposób uczenia się w najprostszej możliwej formie.

tejaskhot
źródło

Odpowiedzi:

17

Echo State Network jest przykładem bardziej ogólnej koncepcji Reservoir Computing . Podstawową ideą ESN jest uzyskanie korzyści z RNN (przetworzyć sekwencję sygnałów wejściowych, które są od siebie zależne, tj. Zależności czasowe jak sygnał), ale bez problemów uczenia tradycyjnego RNN, takiego jak problem zanikającego gradientu .

ESN osiągają to poprzez posiadanie stosunkowo dużego rezerwuaru słabo połączonych neuronów za pomocą sigmoidalnej funkcji przenoszenia (w stosunku do wielkości wejściowej, około 100-1000 jednostek). Połączenia w zbiorniku są przypisywane raz i są całkowicie losowe; ciężary zbiornika nie są szkolone. Neurony wejściowe są podłączone do zbiornika i zasilają aktywacje wejściowe do zbiornika - one również mają przypisane niewyuczone losowe ciężary. Jedynymi trenowanymi wagami są wyjściowe wagi, które łączą zbiornik z neuronami wyjściowymi.

W trakcie szkolenia dane wejściowe będą podawane do zbiornika, a dane wyjściowe nauczyciela zostaną zastosowane do jednostek wyjściowych. Stany zbiornika są rejestrowane w czasie i przechowywane. Po zastosowaniu wszystkich danych treningowych można zastosować proste zastosowanie regresji liniowej między przechwyconymi stanami zbiornika a wyjściowymi wartościami docelowymi. Te wagi wyjściowe można następnie włączyć do istniejącej sieci i wykorzystać do nowatorskich danych wejściowych.

Chodzi o to, że rzadkie przypadkowe połączenia w zbiorniku pozwalają poprzednim echom „echo” nawet po ich przejściu, tak że jeśli sieć otrzyma nowatorski sygnał wejściowy, podobny do czegoś, na którym trenował, dynamika w zbiorniku zacznie postępuj zgodnie z trajektorią aktywacji odpowiednią dla danych wejściowych i w ten sposób może zapewnić dopasowany sygnał do tego, na czym trenował, a jeśli jest dobrze przeszkolony, będzie w stanie uogólnić na podstawie tego, co już widział, zgodnie z trajektoriami aktywacji, które miałyby sens biorąc pod uwagę sygnał wejściowy napędzający zbiornik.

Zaletą tego podejścia jest niewiarygodnie prosta procedura treningowa, ponieważ większość ciężarów przypisywana jest tylko raz i losowo. Są jednak w stanie uchwycić złożoną dynamikę w czasie i są w stanie modelować właściwości układów dynamicznych. Zdecydowanie najbardziej pomocne dokumenty, które znalazłem na ESN, to:

Obaj mają łatwe do zrozumienia objaśnienia wraz z formalizmem i znakomite porady dotyczące tworzenia implementacji wraz z wytycznymi dotyczącymi wyboru odpowiednich wartości parametrów.

AKTUALIZACJA: Książka Deep Learning autorstwa Goodfellow, Bengio i Courville zawiera nieco bardziej szczegółową, ale wciąż przyjemną dyskusję na wysokim poziomie dotyczącą Echo State Networks. Sekcja 10.7 omawia znikający (i eksplodujący) problem gradientu oraz trudności w uczeniu się zależności długoterminowych. Rozdział 10.8 dotyczy Echo State Networks. W szczególności szczegółowo omawia, dlaczego tak ważne jest, aby wybrać masy zbiorników, które mają odpowiednią wartość promienia widmowego - współpracuje z nieliniowymi jednostkami aktywującymi, aby zwiększyć stabilność, a jednocześnie propagować informacje w czasie.

adamconkey
źródło
1

Uczenie się w ESN nie jest przede wszystkim zmuszane do dostosowywania wag, a bardziej odpowiednio warstwa wyjściowa uczy się, które dane wyjściowe produkować dla bieżącego stanu sieci. Stan wewnętrzny opiera się na dynamice sieci i nazywa się dynamicznym stanem zbiornika. Aby zrozumieć, w jaki sposób kształtują się stany zbiornika, musimy przyjrzeć się topologii ESN.

Topologia ESN

Jednostki wejściowe są połączone z neuronami w jednostkach wewnętrznych (jednostkach rezerwuarowych), wagi są inicjowane losowo. Jednostki zbiornikowe są losowo i rzadko połączone, a także mają losowe ciężary. Jednostka wyjściowa jest również podłączona do wszystkich jednostek zbiornikowych, w ten sposób odbiera stan zbiornika i wytwarza odpowiednią moc wyjściową.

tt

Zanim wyjaśnimy szczegółowo, jak działa szkolenie, musimy wyjaśnić i zdefiniować kilka rzeczy:

TtWfb

Zmienne definicje:

  • r
  • o
  • t
  • o
  • Tto

Wreszcie, jak szczegółowo działa szkolenie ?

  • tMtr ) rezerwuaru.
  • WoutMWout=T>Wout=MT1

Ponieważ nauka jest bardzo szybka, możemy wypróbować wiele topologii sieci, aby uzyskać taką, która dobrze pasuje.

Aby zmierzyć wydajność ESN:

  • Wfb
  • ||M.W.out-T.||2)

Promień spektralny i ESN

Spec-tral1

maniak
źródło