Niedawno przeczytałem artykuł Yanna Dauphina i in. Identyfikowanie i atakowanie problemu punktu siodłowego w wielowymiarowej nie wypukłej optymalizacji , w której wprowadzono interesujący algorytm opadania o nazwie Saddle-Free Newton , który wydaje się być dokładnie dostosowany do optymalizacji sieci neuronowej i nie powinien cierpieć z powodu utknięcia w punktach siodłowych jak metody pierwszego rzędu jak waniliowy SGD.
Artykuł pochodzi z 2014 roku, więc nie jest niczym nowym, jednak nie widziałem, aby był używany „na wolności”. Dlaczego ta metoda nie jest używana? Czy obliczenia Hesji są zbyt wygórowane dla rzeczywistych problemów / sieci? Czy istnieje jakaś implementacja tego algorytmu typu open source, która może być używana z niektórymi głównymi platformami do głębokiego uczenia się?
Aktualizacja lutego 2019: dostępna jest teraz implementacja: https://github.com/dave-fernandes/SaddleFreeOptimizer )
źródło
Odpowiedzi:
Lepsza optymalizacja niekoniecznie oznacza lepszy model. Ostatecznie zależy nam na tym, jak dobrze model się uogólnia, a niekoniecznie na tym, jak dobra jest wydajność zestawu treningowego. Techniki optymalizacji bardziej zaawansowane zwykle działają lepiej i szybciej zbiegają się w zestawie treningowym, ale nie zawsze generalizują tak dobrze, jak podstawowe algorytmy. Na przykład ten dokument pokazuje, że SGD może generalizować lepiej niż optymalizator ADAM. Może tak być również w przypadku niektórych algorytmów optymalizacji drugiego rzędu.
[Edytuj] Usunięto pierwszy punkt, ponieważ nie ma tutaj zastosowania. Dzięki Bayerj za zwrócenie na to uwagi.
źródło