lokalne minima vs punkty siodłowe w głębokim uczeniu się

Słyszałem, jak Andrew Ng (w filmie, którego niestety już nie mogę znaleźć) opowiadał o tym, jak zmieniło się rozumienie lokalnych minimów w problemach głębokiego uczenia się w tym sensie, że są one obecnie uważane za mniej problematyczne, ponieważ w przestrzeniach wielowymiarowych (spotykanych w głębokie uczenie się) punkty krytyczne częściej są punktami siodłowymi lub płaskowyżami niż lokalnymi minimami.

Widziałem artykuły (np. Tę ), które omawiają założenia, zgodnie z którymi „każde lokalne minimum jest globalnym minimum”. Wszystkie te założenia są raczej techniczne, ale z tego, co rozumiem, mają tendencję do narzucania struktury sieci neuronowej, która czyni ją nieco liniową.

Czy uzasadnione jest twierdzenie, że w głębokim uczeniu się (w tym architekturach nieliniowych) płaskowyże są bardziej prawdopodobne niż lokalne minima? A jeśli tak, to czy kryje się za tym (prawdopodobnie matematyczna) intuicja?

Czy jest coś szczególnego w głębokim uczeniu się i punktach siodłowych?

machine-learning deep-learning optimization convergence oW_
źródło

Jeśli chodzi o matematyczną intuicję, dlaczego punkt siodłowy jest bardziej prawdopodobny niż lokalne minimum, pomyślałbym o tym pod względem cech. Aby być lokalnym minimum, musi być lokalnym minimum we wszystkich kierunkach. Natomiast dla punktu siodłowego tylko 1 kierunek musi być inny niż inne. O wiele bardziej prawdopodobne jest, że jeden lub więcej zachowuje się inaczej niż pozostałe, w porównaniu do tego samego zachowania we wszystkich kierunkach.

Paul

dzięki, teraz, kiedy to mówisz, to trochę oczywiste ... oto kilka interesujących dyskusji na ten temat

oW_

Andrew Ng ma wideo na temat „Problem minimów lokalnych” w drugim tygodniu swojego kursu Coursera, „Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization”. Może to ten, którego szukasz.

mjul

spójrz tutaj

Media

Odpowiedzi:

To po prostu stara się przekazać moją intuicję, tj. Brak rygoru. Rzeczą w punktach siodłowych jest to, że są one rodzajem optymalnego, który łączy kombinację minimów i maksimów. Ponieważ liczba wymiarów jest tak duża przy głębokim uczeniu się, prawdopodobieństwo, że optimum składa się tylko z kombinacji minimów, jest bardzo niskie. Oznacza to, że „utknięcie” w lokalnym minimum jest rzadkie. Ryzykując nadmierne uproszczenie, trudniej jest „utknąć” w punkcie siodła, ponieważ można „zjechać z jednego z wymiarów”. Myślę, że film Andrew Ng, o którym mówisz, pochodzi z kursu Coursera na temat głębokiego uczenia się.

użytkownik41985
źródło

Pozwól mi wyjaśnić na podstawie rachunku różniczkowego. Jeśli wybrałeś kurs wielowymiarowy, usłyszysz, że biorąc pod uwagę punkt krytyczny (punkt, w którym gradient wynosi zero), warunkiem tego punktu krytycznego, aby być minimalnym jest to, że macierz Hesji jest dodatnia. Ponieważ Hesjan jest macierzą symetryczną, możemy ją diagonalizować. Jeśli napiszemy macierz diagonalną odpowiadającą Hesji jako: Hesjan jest dodatni określony jest równoważny.

re = [\begin{matrix} {re}_{1} \\ ⋱ \\ {re}_{n} \end{matrix}]

$D = \begin{bmatrix} d_{1} & & \\ & \ddots & \\ & & d_{n} \end{bmatrix}$

d_{1} > 0, \dots, d_{n} > 0

$d_1 > 0, \dots, d_n>0$

$d_1,\dots,d_n$ $d_i$ $1/2$ $d_i$ $d_j$ , ze względu na wysoką nieliniowość macierzy Heskiej, więc przyjmiemy prawdopodobieństwo, że będą one pozytywne jako zdarzenia niezależne.

P. ({re}_{1} > 0, \dots, {re}_{n} > 0) = P. ({re}_{1} > 0) \cdot \dots \cdot P. ({re}_{n} > 0) = \frac{1}{{2)}^{n}}

$P(d_1 > 0, \dots, d_n > 0) = P(d_1 > 0)\cdot \cdots \cdot P(d_n > 0) = \frac{1}{2^n}$

$10^8$ $1/2^n$

Ale co z maksimami?

$1/2 ^n$

P (s a d d l e) = 1 - P (m a x i m u m) - P (m i n i m u m) = 1 - \frac{1}{2^{n}} - \frac{1}{2^{n}} = 1 - \frac{1}{2^{n - 1}}

$P(saddle) = 1 - P(maximum) - P(minimum) = 1 - \frac{1}{2^n} - \frac{1}{2^n} = 1 - \frac{1}{2^{n-1}}$

$n$

David Masip
źródło