Określ optymalną szybkość uczenia się dla spadku gradientu w regresji liniowej

9

Jak określić optymalną szybkość uczenia się dla spadku gradientu? Myślę, że mógłbym to automatycznie dostosować, jeśli funkcja kosztu zwróci większą wartość niż w poprzedniej iteracji (algorytm się nie zbiegnie), ale nie jestem pewien, jaką nową wartość powinna przyjąć.

Valentin Radu
źródło
willamette.edu/~gorr/classes/cs449/momrate.html Próbowanie wyżarzania w formie lokalnej adaptacji szybkości: µ (t) = µ (0) / (1 + t / T); Przyrost t, gdy zmienia się znak błędu.
Chris,

Odpowiedzi:

2

(Lata później) poszukaj metody wielkości kroku Barzilai-Borweina; onmyphd.com ma ładny 3-stronicowy opis. Autor mówi

takie podejście działa dobrze, nawet przy dużych problemach wymiarowych

ale to okropne dla jego apletu funkcji 2d Rosenbrock. Jeśli ktoś używa Barzilai-Borwein, prosimy o komentarz.

denis
źródło
1

Jesteś na dobrej drodze. Powszechnym podejściem jest podwojenie wielkości kroku za każdym razem, gdy wykonujesz udany krok w dół i zmniejszenie o połowę rozmiaru kroku, gdy przypadkowo zejdziesz „za daleko”. Oczywiście możesz skalować o czynnik inny niż 2, ale ogólnie nie robi to dużej różnicy.

Bardziej wyrafinowane metody optymalizacji zapewne nieco przyspieszą konwergencję, ale jeśli z jakiegoś powodu musisz wprowadzić własną aktualizację, powyższe jest atrakcyjnie proste i często wystarczająco dobre.

Rysował
źródło
Myślałem też o pomnożeniu / podzieleniu przez dwa. Obawiam się jednak, że pomnożenie przez dwa za każdym razem, gdy nastąpi udany krok, skończy się znacznie większą liczbą iteracji. Miałem nadzieję, że istnieje sposób, aby to zrobić za pomocą gradientu, ponieważ zawiera on informacje o tym, jak strome jest nachylenie.
Valentin Radu,
Nie wydaje mi się prawdopodobne, że takie informacje można uzyskać z gradientu. Sam gradient nie mówi ci, jak daleko jesteś od optymalnego, a co ważniejsze - jak zmienia się sam gradient, gdy zmienia się . Do tego potrzebujesz Hesji. x
sjm.majewski,
Jeśli masz do czynienia z podstawowym procesem stacjonarnym, maksymalna szybkość uczenia się zależy od spektrum macierzy korelacji, prawda?
jasna gwiazda