Twoje pytanie jest dość ogólne, ale oto kilka wskazówek:
W przypadku sieci feedforward zobacz to pytanie :
Odpowiedź @ douga zadziałała dla mnie. Istnieje jedna dodatkowa zasada, która pomaga w nadzorowanych problemach z nauką. Górna granica liczby ukrytych neuronów, które nie spowodują nadmiernego dopasowania, to:
N.h= Ns( α ∗ ( Nja+ No) )
N.ja = liczba neuronów wejściowych. N.o = liczba neuronów wyjściowych.
N.s = liczba próbek w zbiorze danych szkoleniowych. α = arbitralny współczynnik skalowania zwykle 2-10.
Inni zalecają
ustawieniea l p h a na wartość między 5 a 10, ale uważam, że wartość 2 często działa bez przeregulowania. Jak wyjaśniono tymdoskonałym tekstem NN Design, chcesz ograniczyć liczbę wolnych parametrów w swoim modelu (jego
stopień lub liczbą niezerowych odważników) do niewielkiej części stopni swobody danych. Stopnie swobody w danych to liczba próbek * stopni swobody (wymiary) w każdej próbce lub N.s∗ ( Nja+ No)
(przy założeniu, że wszystkie są niezależne). Więcα jest sposób, aby wskazać, jak chcesz ogólny model być, lub ile chcesz uniknąć nadmiernego dopasowania.
W przypadku procedury zautomatyzowanej zaczynasz od alfa 2 (dwa razy więcej stopni swobody w danych treningowych niż w modelu) i pracujesz aż do 10, jeśli błąd danych treningowych jest znacznie mniejszy niż w przypadku weryfikacji krzyżowej zbiór danych.
A konkretnie na LSTM'S, może chcesz sprawdzić to .
Ale główny punkt: nie ma reguły dotyczącej liczby ukrytych węzłów, których powinieneś użyć, jest to coś, co musisz ustalić dla każdej sprawy metodą prób i błędów .
Zasadniczo nie ma żadnych wskazówek, jak określić liczbę warstw lub liczbę komórek pamięci w LSTM.
Liczba warstw i komórek wymaganych w LSTM może zależeć od kilku aspektów problemu:
złożoność zbioru danych. Ilość funkcji, liczba punktów danych itp.
Proces generowania danych. Poniżej przykład, w jaki sposób proces generowania danych może odgrywać znaczącą rolę.
Ex - Prognozowanie cen ropy naftowej w porównaniu z prognozą PKB dobrze rozumianej gospodarki. To drugie jest znacznie łatwiejsze niż pierwsze. Zatem przewidywanie cen ropy może równie dobrze wymagać większej liczby komórek pamięci LSTM, aby przewidywać z taką samą dokładnością jak PKB.
Podczas modelowania przy użyciu LSTM wykonuję następujące kroki:
Wypróbuj jedną ukrytą warstwę z 2 lub 3 komórkami pamięci. Zobacz, jak wypada w porównaniu z testem porównawczym. Jeśli jest to problem z szeregami czasowymi, generalnie prognozuję na podstawie klasycznych technik szeregów czasowych.
Spróbuj zwiększyć liczbę komórek pamięci. Jeśli wydajność niewiele wzrasta, przejdź do następnego kroku.
Zacznij pogłębiać sieć, tj. Dodaj kolejną warstwę z niewielką liczbą komórek pamięci.
Na bok :
Nie ma ograniczeń co do ilości pracy, którą można poświęcić, aby osiągnąć te globalne minima funkcji straty i dostroić najlepsze hiper-parametry. Tak więc skupienie się na końcowym celu modelowania powinno być strategią, a nie próbowanie maksymalnego zwiększenia dokładności.
Większość problemów można rozwiązać za pomocą 2-3 warstw sieci.
źródło
Może powinieneś rzucić na to okiem: https://wiki.inf.ed.ac.uk/twiki/pub/CSTR/ListenTerm1201415/sak2.pdf
Tutaj pokazują, że 2 warstwy są fajne, 5 warstw jest lepszych, a 7 warstw jest bardzo trudnych do trenowania.
źródło