Echo State Network jest przykładem bardziej ogólnej koncepcji Reservoir Computing . Podstawową ideą ESN jest uzyskanie korzyści z RNN (przetworzyć sekwencję sygnałów wejściowych, które są od siebie zależne, tj. Zależności czasowe jak sygnał), ale bez problemów uczenia tradycyjnego RNN, takiego jak problem zanikającego gradientu .
ESN osiągają to poprzez posiadanie stosunkowo dużego rezerwuaru słabo połączonych neuronów za pomocą sigmoidalnej funkcji przenoszenia (w stosunku do wielkości wejściowej, około 100-1000 jednostek). Połączenia w zbiorniku są przypisywane raz i są całkowicie losowe; ciężary zbiornika nie są szkolone. Neurony wejściowe są podłączone do zbiornika i zasilają aktywacje wejściowe do zbiornika - one również mają przypisane niewyuczone losowe ciężary. Jedynymi trenowanymi wagami są wyjściowe wagi, które łączą zbiornik z neuronami wyjściowymi.
W trakcie szkolenia dane wejściowe będą podawane do zbiornika, a dane wyjściowe nauczyciela zostaną zastosowane do jednostek wyjściowych. Stany zbiornika są rejestrowane w czasie i przechowywane. Po zastosowaniu wszystkich danych treningowych można zastosować proste zastosowanie regresji liniowej między przechwyconymi stanami zbiornika a wyjściowymi wartościami docelowymi. Te wagi wyjściowe można następnie włączyć do istniejącej sieci i wykorzystać do nowatorskich danych wejściowych.
Chodzi o to, że rzadkie przypadkowe połączenia w zbiorniku pozwalają poprzednim echom „echo” nawet po ich przejściu, tak że jeśli sieć otrzyma nowatorski sygnał wejściowy, podobny do czegoś, na którym trenował, dynamika w zbiorniku zacznie postępuj zgodnie z trajektorią aktywacji odpowiednią dla danych wejściowych i w ten sposób może zapewnić dopasowany sygnał do tego, na czym trenował, a jeśli jest dobrze przeszkolony, będzie w stanie uogólnić na podstawie tego, co już widział, zgodnie z trajektoriami aktywacji, które miałyby sens biorąc pod uwagę sygnał wejściowy napędzający zbiornik.
Zaletą tego podejścia jest niewiarygodnie prosta procedura treningowa, ponieważ większość ciężarów przypisywana jest tylko raz i losowo. Są jednak w stanie uchwycić złożoną dynamikę w czasie i są w stanie modelować właściwości układów dynamicznych. Zdecydowanie najbardziej pomocne dokumenty, które znalazłem na ESN, to:
Obaj mają łatwe do zrozumienia objaśnienia wraz z formalizmem i znakomite porady dotyczące tworzenia implementacji wraz z wytycznymi dotyczącymi wyboru odpowiednich wartości parametrów.
AKTUALIZACJA: Książka Deep Learning autorstwa Goodfellow, Bengio i Courville zawiera nieco bardziej szczegółową, ale wciąż przyjemną dyskusję na wysokim poziomie dotyczącą Echo State Networks. Sekcja 10.7 omawia znikający (i eksplodujący) problem gradientu oraz trudności w uczeniu się zależności długoterminowych. Rozdział 10.8 dotyczy Echo State Networks. W szczególności szczegółowo omawia, dlaczego tak ważne jest, aby wybrać masy zbiorników, które mają odpowiednią wartość promienia widmowego - współpracuje z nieliniowymi jednostkami aktywującymi, aby zwiększyć stabilność, a jednocześnie propagować informacje w czasie.