Jak działa termin na algorytm propagacji wstecznej?

Czy podczas aktualizacji wag sieci neuronowej za pomocą algorytmu propagacji wsteczne z terminem pędu należy zastosować szybkość uczenia się również do terminu pędu?

Większość informacji, które mogłem znaleźć na temat używania pędu, ma równania wyglądające mniej więcej tak:

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

gdzie $\alpha$ to współczynnik uczenia się, oraz $\mu$ jest pojęciem pędu.

jeśli $\mu$ termin jest większy niż $\alpha$ określenie to w następnej iteracji $\Delta W$ z poprzedniej iteracji będzie miał większy wpływ na wagę niż bieżąca.

Czy taki jest cel terminu pędu? czy równanie powinno wyglądać bardziej tak?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

to znaczy. skalowanie wszystkiego według wskaźnika uczenia się?

machine-learning neural-networks guskenny83
źródło

Odpowiedzi:

Korzystanie z propagacji zwrotnej z rozmachem w sieci z $n$ różne ciężary $W_k$ $i$ -ta poprawka na wagę $W_k$ jest dany przez

$\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ gdzie $\frac{\partial E}{\partial W_k}$ jest odmianą wrt straty $W_k$ .

Wprowadzenie prędkości pędu umożliwia tłumienie oscylacji podczas opadania gradientu. Geometryczną ideę tego pomysłu można prawdopodobnie najlepiej zrozumieć w kategoriach analizy przestrzeni własnej w przypadku liniowym. Jeśli stosunek wartości najniższej do największej wartości własnej jest duży, wówczas wykonywanie spadku gradientu jest powolne, nawet jeśli szybkość uczenia się jest duża z powodu warunkowania macierzy. Pęd wprowadza pewne zrównoważenie w aktualizacji między wektorami własnymi związanymi z niższymi i większymi wartościami własnymi.

Aby uzyskać więcej informacji, o których mowa

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

Nico
źródło

Co oznacza underbrace?

David Richerby

dobrze, więc moment pędu jest uwzględniany przy obliczaniu

Δ W_{k}

$\Delta W_k$ termin, a nie dodawany przy obliczaniu „nowej” wartości masy? Tylko dla wyjaśnienia, jeśli twój termin

μ W_{k} (i - 1)

$\mu W_k(i-1)$ być

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$ ? czy jest to proporcja rzeczywistej wagi, a nie zmiana stawki? dziękuję za odpowiedź i link do artykułu.

guskenny83

dziękuję za zwrócenie uwagi na błąd. Oczywiście, że tak

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

nico

Co rozumiesz przez „zmianę straty”? Czy to coś w rodzaju „zmiany błędu”?

starbeamrainbowlabs

Oznacza to jedynie pochodną błędu w odniesieniu do wag.

nico