Czy podczas aktualizacji wag sieci neuronowej za pomocą algorytmu propagacji wsteczne z terminem pędu należy zastosować szybkość uczenia się również do terminu pędu?
Większość informacji, które mogłem znaleźć na temat używania pędu, ma równania wyglądające mniej więcej tak:
gdzie to współczynnik uczenia się, oraz jest pojęciem pędu.
jeśli termin jest większy niż określenie to w następnej iteracji z poprzedniej iteracji będzie miał większy wpływ na wagę niż bieżąca.
Czy taki jest cel terminu pędu? czy równanie powinno wyglądać bardziej tak?
to znaczy. skalowanie wszystkiego według wskaźnika uczenia się?
źródło