Jak działa termin na algorytm propagacji wstecznej?

9

Czy podczas aktualizacji wag sieci neuronowej za pomocą algorytmu propagacji wsteczne z terminem pędu należy zastosować szybkość uczenia się również do terminu pędu?

Większość informacji, które mogłem znaleźć na temat używania pędu, ma równania wyglądające mniej więcej tak:

Wi=WiαΔWi+μΔWi1

gdzie α to współczynnik uczenia się, oraz μ jest pojęciem pędu.

jeśli μ termin jest większy niż α określenie to w następnej iteracji ΔW z poprzedniej iteracji będzie miał większy wpływ na wagę niż bieżąca.

Czy taki jest cel terminu pędu? czy równanie powinno wyglądać bardziej tak?

Wi=Wiα(ΔWi+μΔWi1)

to znaczy. skalowanie wszystkiego według wskaźnika uczenia się?

guskenny83
źródło

Odpowiedzi:

10

Korzystanie z propagacji zwrotnej z rozmachem w sieci z n różne ciężary Wk i-ta poprawka na wagę Wk jest dany przez

ΔWk(i)=αEWk+μΔWk(i1) gdzie EWk jest odmianą wrt straty Wk.

Wprowadzenie prędkości pędu umożliwia tłumienie oscylacji podczas opadania gradientu. Geometryczną ideę tego pomysłu można prawdopodobnie najlepiej zrozumieć w kategoriach analizy przestrzeni własnej w przypadku liniowym. Jeśli stosunek wartości najniższej do największej wartości własnej jest duży, wówczas wykonywanie spadku gradientu jest powolne, nawet jeśli szybkość uczenia się jest duża z powodu warunkowania macierzy. Pęd wprowadza pewne zrównoważenie w aktualizacji między wektorami własnymi związanymi z niższymi i większymi wartościami własnymi.

Aby uzyskać więcej informacji, o których mowa

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

Nico
źródło
Co oznacza underbrace?
David Richerby
dobrze, więc moment pędu jest uwzględniany przy obliczaniu ΔWktermin, a nie dodawany przy obliczaniu „nowej” wartości masy? Tylko dla wyjaśnienia, jeśli twój terminμWk(i1) być μΔWk(i1)? czy jest to proporcja rzeczywistej wagi, a nie zmiana stawki? dziękuję za odpowiedź i link do artykułu.
guskenny83
dziękuję za zwrócenie uwagi na błąd. Oczywiście, że takΔWk(i1)
nico
Co rozumiesz przez „zmianę straty”? Czy to coś w rodzaju „zmiany błędu”?
starbeamrainbowlabs
Oznacza to jedynie pochodną błędu w odniesieniu do wag.
nico