Może to zabrzmieć głupio dla kogoś, kto ma duże doświadczenie z sieciami neuronowymi, ale przeszkadza mi to ...
Chodzi mi o to, że losowe wagi początkowe mogą dać lepsze wyniki, które byłyby nieco bliżej tego, jak powinna wyglądać wyszkolona sieć, ale równie dobrze może być dokładnym przeciwieństwem tego, co powinno być, podczas gdy 0,5 lub inna średnia dla zakresu rozsądnej wagi wartość brzmiałaby jak dobre ustawienie domyślne ...
Dlaczego początkowe wagi neuronów są losowe, a nie 0,5 dla wszystkich?
neural-networks
training
Matas Vaitkevicius
źródło
źródło
Odpowiedzi:
Wagi początkowe w sieci neuronowej są inicjowane losowo, ponieważ metody oparte na gradiencie, powszechnie stosowane do trenowania sieci neuronowych, nie działają dobrze, gdy wszystkie wagi są inicjowane do tej samej wartości. Chociaż nie wszystkie metody trenowania sieci neuronowych są oparte na gradiencie, większość z nich jest, i w kilku przypadkach wykazano, że inicjalizacja sieci neuronowej do tej samej wartości powoduje, że połączenie sieci z optymalnym rozwiązaniem zajmuje znacznie więcej czasu. Ponadto, jeśli chcesz ponownie przeszkolić swoją sieć neuronową, ponieważ utknęła w lokalnych minimach, utknie w tych samych lokalnych minimach. Z powyższych powodów nie ustawiamy początkowych wag na stałą wartość.
Odnośniki: Dlaczego propagacja wsteczna nie działa, gdy inicjujesz wagi o tej samej wartości?
źródło
Nie powinieneś przypisywać wszystkich do 0,5, ponieważ miałbyś problem z łamaniem symetrii.
źródło
To bardzo głębokie pytanie. Niedawno pojawiła się seria artykułów z dowodem zbieżności spadku gradientu w przypadku sparametryzowanej głębokiej sieci (na przykład Gradient Descent Finds Global Minima of Deep Neural Networks , A Convergence Theory for Deep Learning over Overparameterization lub Stochastic Gradient Descent Optimizes Overparameterized Deep ReLU Networks ). Wszystkie warunkują dowód na losowy rozkład wag Gaussa. Jego znaczenie dla dowodów zależy od dwóch czynników:
Losowe wagi sprawiają, że mapowanie ReLU jest ściskane statystycznie (do transformacji liniowej)
Wagi losowe zachowują separację danych wejściowych dla dowolnej dystrybucji danych wejściowych - to znaczy, jeśli próbki wejściowe są rozróżnialne, propagacja sieci nie spowoduje, że będą nierozróżnialne
Te właściwości bardzo trudne do odtworzenia za pomocą macierzy deterministycznych, a nawet jeśli są odtwarzalne za pomocą macierzy deterministycznych Przestrzeń NULL (dziedzina przykładów przeciwnych) prawdopodobnie spowodowałaby niepraktyczność metody, a ważniejsze zachowanie tych właściwości podczas opadania gradientu prawdopodobnie uczyniłoby tę metodę niepraktyczną. Ale ogólnie rzecz biorąc jest to bardzo trudne, ale nie niemożliwe, i może uzasadniać pewne badania w tym kierunku. W analogicznej sytuacji wystąpiły pewne wyniki dla właściwości ograniczonej izometrii dla matryc deterministycznych w detekcji skompresowanej .
źródło