Podczas uczenia sieci neuronowej za pomocą algorytmu propagacji wstecznej do określenia aktualizacji masy używana jest metoda opadania gradientu. Moje pytanie brzmi: Zamiast używać metody opadania gradientu, aby powoli zlokalizować punkt minimalny w odniesieniu do określonej masy, dlaczego nie ustawimy po prostu pochodnej i znaleźć wartość masyw,która minimalizuje błąd?
Ponadto, dlaczego jesteśmy pewni, że funkcja błędu w propagacji wstecznej będzie minimalna? Czy nie może okazać się, że funkcja błędu jest maksimum? Czy istnieje specyficzna właściwość funkcji zgniatania, która gwarantuje, że sieć z dowolną liczbą ukrytych węzłów o dowolnych wagach i wektorach wejściowych zawsze da funkcję błędu, która ma pewne minima?
22
Odpowiedzi:
Ponieważ nie możemy. Powierzchnia optymalizacji jako funkcja wag w jest nieliniowa i nie istnieje rozwiązanie dla postaci zamkniętej dla d S ( w )S(w) w .dS(w)dw=0
Zejście gradientowe z definicji spada. Jeśli po zejściu osiągniesz punkt stacjonarny, musi to być (lokalne) minimum lub punkt siodłowy, ale nigdy lokalne maksimum.
źródło
Jeśli chodzi o odpowiedź Marca Claesena, uważam, że zejście gradientu może zatrzymać się na lokalnym maksimum w sytuacjach, w których inicjujesz do lokalnego maksimum lub akurat trafiasz tam z powodu pecha lub błędnego parametru szybkości. Lokalne maksimum miałoby zerowy gradient, a algorytm pomyślałby, że się zbiegło. Dlatego często uruchamiam wiele iteracji z różnych punktów początkowych i śledzę wartości po drodze.
źródło
W metodach typu Newtona każdy krok rozwiązuje sięre( błąd )rew= 0 dla zlinearyzowanej lub przybliżonej wersji problemu. Następnie problem jest linearyzowany wokół nowego punktu, a proces powtarza się aż do konwergencji. Niektórzy ludzie zrobili to dla sieci neuronowych, ale ma następujące wady,
Jeśli ktoś użyje metody Krylowa do rozwiązania Hesji i nie zastosuje dobrego warunku wstępnego dla Hesji, wówczas koszty w przybliżeniu się zrównoważą - iteracje Newtona trwają znacznie dłużej, ale robią większy postęp, w taki sposób, że całkowity czas jest mniej więcej takie samo lub wolniejsze niż opadanie gradientu. Z drugiej strony, jeśli ktoś ma dobry wstępny warunek Hesji, wówczas metoda Newtona wygrywa na wielką skalę.
To powiedziawszy, metody Newtona-Kryłowa oparte na zaufaniu są złotym standardem we współczesnej optymalizacji na dużą skalę, i spodziewałbym się, że ich zastosowanie zwiększy się w sieciach neuronowych w nadchodzących latach, ponieważ ludzie chcą rozwiązywać coraz większe problemy. (a także, gdy coraz więcej osób zajmujących się optymalizacją numeryczną interesuje się uczeniem maszynowym)
źródło