Tego rodzaju pytania mogą być zależne od problemu, ale próbowałem znaleźć badania, które odpowiedzą na pytanie, czy liczba ukrytych warstw i ich rozmiar (liczba neuronów w każdej warstwie) ma znaczenie, czy nie.
Moje pytanie brzmi więc, czy to naprawdę ma znaczenie, jeśli na przykład mamy 1 dużą ukrytą warstwę 1000 neuronów vs. 10 ukrytych warstw po 100 neuronów każda?
źródło
Jest tyle aspektów.
1. Trening: Trening głębokich sieci jest trudny ze względu na znikający (z tyłu wybuch) problem gradientu. Dlatego nie zaleca się budowania sieci neuronowej 10 x 100.
2. Wyszkolona wydajność sieci:
Tak więc głębsze sieci są bardziej „sprytne”, ale struktura sieci 10 x 100 to dobry wybór.
źródło
Jeśli rozwiązywany problem można rozdzielić liniowo, jedna warstwa 1000 neuronów może wykonać lepszą robotę niż 10 warstw z każdym ze 100 neuronów. Jeśli problem nie jest liniowy i nie jest wypukły, potrzebujesz głębokich sieci neuronowych.
źródło
Wyjście pierwszej ukrytej warstwy zostanie pomnożone przez wagę, przetworzone przez funkcję aktywacji w następnej warstwie i tak dalej. Jednowarstwowe sieci neuronowe są bardzo ograniczone do prostych zadań, głębsze NN może działać znacznie lepiej niż pojedyncza warstwa.
Nie należy jednak używać więcej niż warstwy, jeśli aplikacja nie jest dość złożona. Podsumowując, warstwa 100 neuronów nie oznacza lepszej sieci neuronowej niż 10 warstw x 10 neuronów, ale 10 warstw jest czymś wymyślonym, chyba że wykonujesz głębokie uczenie się. zacznij od 10 neuronów w ukrytej warstwie i spróbuj dodać warstwy lub dodaj więcej neuronów do tej samej warstwy, aby zobaczyć różnicę. nauka z większą liczbą warstw będzie łatwiejsza, ale potrzeba więcej czasu na szkolenie.
źródło