Momentum służy do zmniejszenia wahań zmian masy w kolejnych iteracjach:
gdzieE(w)jest funkcją błędu,w- wektor wag,η- szybkość uczenia się.
Rozpad masy karze zmiany masy:
Pytanie brzmi, czy sensowne jest połączenie obu lew podczas propagacji wstecznej i jaki miałby to efekt?
neural-networks
optimization
regularization
gradient-descent
Oleg Shirokikh
źródło
źródło
Odpowiedzi:
Tak, bardzo często używa się obu lew. Rozwiązują różne problemy i mogą dobrze ze sobą współpracować.
Jednym ze sposobów myślenia o tym jest to, że rozpad masy zmienia optymalizowaną funkcję , a pęd zmienia optymalną ścieżkę .
Zmniejszenie masy poprzez zmniejszenie współczynników do zera, zapewnia znalezienie lokalnego optimum z parametrami małej wielkości. Jest to zwykle kluczowe dla uniknięcia przeuczenia (chociaż mogą również działać inne ograniczenia na wadze). Dodatkową korzyścią może być również łatwiejsza optymalizacja modelu, poprzez zwiększenie wypukłości funkcji celu.
Kiedy będziesz już mieć funkcję celu, musisz zdecydować, jak się po niej poruszać. Najtrudniejsze zejście na gradient jest najprostszym podejściem, ale masz rację, że fluktuacje mogą być dużym problemem. Dodanie rozpędu pomaga rozwiązać ten problem. Jeśli pracujesz z aktualizacjami wsadowymi (co zwykle jest złym pomysłem w przypadku sieci neuronowych), kroki typu Newtona są inną opcją. Nowe „gorące” podejścia oparte są na przyspieszonym gradiencie Niestierowa i tak zwanej optymalizacji „bez Hesji”.
Ale niezależnie od tego, której z tych zasad aktualizacji używasz (pędu, Newtona itp.), Nadal pracujesz z tą samą funkcją celu, która jest określona przez twoją funkcję błędu (np. Błąd kwadratu) i inne ograniczenia (np. Spadek masy) . Głównym pytaniem przy podejmowaniu decyzji, który z nich użyć, jest to, jak szybko uzyskasz dobry zestaw wag.
źródło