Słyszałem, jak Andrew Ng (w filmie, którego niestety już nie mogę znaleźć) opowiadał o tym, jak zmieniło się rozumienie lokalnych minimów w problemach głębokiego uczenia się w tym sensie, że są one obecnie uważane za mniej problematyczne, ponieważ w przestrzeniach wielowymiarowych (spotykanych w głębokie uczenie się) punkty krytyczne częściej są punktami siodłowymi lub płaskowyżami niż lokalnymi minimami.
Widziałem artykuły (np. Tę ), które omawiają założenia, zgodnie z którymi „każde lokalne minimum jest globalnym minimum”. Wszystkie te założenia są raczej techniczne, ale z tego, co rozumiem, mają tendencję do narzucania struktury sieci neuronowej, która czyni ją nieco liniową.
Czy uzasadnione jest twierdzenie, że w głębokim uczeniu się (w tym architekturach nieliniowych) płaskowyże są bardziej prawdopodobne niż lokalne minima? A jeśli tak, to czy kryje się za tym (prawdopodobnie matematyczna) intuicja?
Czy jest coś szczególnego w głębokim uczeniu się i punktach siodłowych?
Odpowiedzi:
To po prostu stara się przekazać moją intuicję, tj. Brak rygoru. Rzeczą w punktach siodłowych jest to, że są one rodzajem optymalnego, który łączy kombinację minimów i maksimów. Ponieważ liczba wymiarów jest tak duża przy głębokim uczeniu się, prawdopodobieństwo, że optimum składa się tylko z kombinacji minimów, jest bardzo niskie. Oznacza to, że „utknięcie” w lokalnym minimum jest rzadkie. Ryzykując nadmierne uproszczenie, trudniej jest „utknąć” w punkcie siodła, ponieważ można „zjechać z jednego z wymiarów”. Myślę, że film Andrew Ng, o którym mówisz, pochodzi z kursu Coursera na temat głębokiego uczenia się.
źródło
Pozwól mi wyjaśnić na podstawie rachunku różniczkowego. Jeśli wybrałeś kurs wielowymiarowy, usłyszysz, że biorąc pod uwagę punkt krytyczny (punkt, w którym gradient wynosi zero), warunkiem tego punktu krytycznego, aby być minimalnym jest to, że macierz Hesji jest dodatnia. Ponieważ Hesjan jest macierzą symetryczną, możemy ją diagonalizować. Jeśli napiszemy macierz diagonalną odpowiadającą Hesji jako: Hesjan jest dodatni określony jest równoważnyd1>0,…,dn>0.
Ale co z maksimami?
źródło