Dlaczego sieci neuronowe wydają się działać lepiej z ograniczeniami nałożonymi na ich topologię?

29

W pełni połączone (przynajmniej warstwa po warstwie z więcej niż 2 ukrytymi warstwami) sieci backprop są uniwersalnymi uczniami. Niestety, często są powolne w nauce i mają tendencję do nadmiernego dopasowania lub mają niezręczne uogólnienia.

Po wygłupianiu się z tymi sieciami zauważyłem, że przycinanie niektórych krawędzi (tak, że ich waga jest zerowa i niemożliwa do zmiany) powoduje, że sieci uczą się szybciej i lepiej uogólniają. Czy jest tego powód? Czy to tylko z powodu zmniejszenia wymiarów przestrzeni wyszukiwania ciężarów, czy może jest to bardziej subtelny powód?

Czy też lepsze uogólnienie jest artefaktem „naturalnych” problemów, na które patrzę?

Artem Kaznatcheev
źródło

Odpowiedzi:

9

Mniej węzłów / krawędzi (lub krawędzi ze stałymi ciężarkami) oznacza, że ​​istnieje mniej parametrów, których wartości należy znaleźć, a to zazwyczaj skraca czas na naukę. Ponadto, gdy jest mniej parametrów, przestrzeń, która może być wyrażona przez sieć neuronową, ma mniej wymiarów, więc sieć neuronowa może wyrażać tylko bardziej ogólne modele. W związku z tym jest mniej zdolny do nadmiernego dopasowania danych, a zatem modele będą wydawać się bardziej ogólne.

Dave Clarke
źródło
5

Przycinając krawędzie, zmniejszyłeś przestrzeń wyszukiwania dla algorytmu szkoleniowego, który będzie miał natychmiastową opłacalność w wydajności czasowej. Wprowadzono również ograniczenia funkcji, które sieć może modelować. Ograniczenia mogą zmusić twój model do znalezienia bardziej ogólnego rozwiązania, ponieważ bardziej dokładny jest nieosiągalny. Powszechną techniką szkolenia sieci neuronowych jest technika opadania gradientu. Inną konsekwencją przycinania może być to, że wyeliminowałeś lokalne minima w krajobrazie parametrów, co ponownie pozwala algorytmowi szkoleniowemu znaleźć lepsze rozwiązanie.

Nie zdziwiłbym się, gdyby twoje lepsze uogólnienie było związane z problemami, na które patrzysz. Cieszyłem się sukcesem w sieciach neuronowych, w których model podstawowy ma ciągłą strukturę, podczas gdy przypadki nieciągłości rzeczy nie działały tak dobrze. Należy również pamiętać, że wydajność sieci neuronowej jest często ściśle związana z tym, jak strukturyzujesz dane wejściowe i wyjściowe.

John Percival Hackworth
źródło