Ostatnio zainteresowałem się LSTM i byłem zaskoczony, gdy dowiedziałem się, że wagi są dzielone w czasie.
Wiem, że jeśli dzielisz wagi w czasie, to twoje wejściowe sekwencje czasowe mogą mieć zmienną długość.
Dzielone ciężary pozwalają trenować o wiele mniej parametrów.
Z mojego zrozumienia, powód, dla którego warto przejść na LSTM vs. jakąś inną metodę uczenia się, jest taki, że wierzysz, że w twoich danych istnieje jakaś struktura czasowa / sekwencyjna / zależność, której chciałbyś się nauczyć. Jeśli poświęcisz „luksus” o zmiennej długości i zaakceptujesz długi czas obliczeń, czy RNN / LSTM bez wspólnych ciężarów (tj. Za każdym razem, gdy masz różne ciężary) będzie działał znacznie lepiej, czy jest coś, czego mi brakuje?
źródło
Perspektywa „dzielonych wag” wynika z myślenia o RNN jako o sieciach feedforward rozwijanych w czasie. Gdyby wagi były różne w każdym momencie, byłaby to tylko sieć zwrotna. Ale przypuszczam, że innym sposobem myślenia o tym byłby RNN, którego wagi są funkcją zmieniającą się w czasie (i która mogłaby pozwolić ci zachować zdolność przetwarzania sekwencji o zmiennej długości).
Jeśli to zrobisz, liczba parametrów będzie rosła liniowo wraz z liczbą kroków czasowych. Byłaby to duża eksplozja parametrów dla sekwencji o znacznej długości. Rzeczywiście sprawiłby, że sieć byłaby silniejsza, gdybyś miał ogromne zasoby obliczeniowe do jej uruchomienia i ogromne dane, aby ją ograniczyć. W przypadku długich sekwencji prawdopodobnie byłby to niewykonalny obliczeniowo, a do tego dojdzie do nadmiernego dopasowania. W rzeczywistości ludzie zwykle idą w przeciwnym kierunku, uruchamiając skróconą propagację wsteczną w czasie, która rozwija sieć tylko przez krótki czas, a nie przez całą sekwencję. Odbywa się to w celu wykonalności obliczeniowej. Co ciekawe, RNN mogą nadal uczyć się struktury czasowej, która wykracza poza długość obcięcia, ponieważ jednostki rekurencyjne mogą przechowywać pamięć z wcześniej.
źródło
Myślę, że ponieważ RNN z ukrytymi nawrotami (i wagami dzielonymi w czasie) są równoważne z Uniwersalnymi Maszynami Turinga, pozwalanie im mieć różne wagi dla różnych kroków czasowych nie czyni ich mocniejszymi.
źródło