Po co w sieciach neuronowych używać metod gradientowych zamiast innych metaheurystyk?

20

Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk?

Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii mrówek itp., Które zostały opracowane w celu uniknięcia utknięcia w lokalnych minimach.

Lior
źródło
1
Do Twojej wiadomości Czy można trenować sieć neuronową bez propagacji wstecznej?
Franck Dernoncourt,

Odpowiedzi:

13

Rozszerzenie odpowiedzi @Dikran Marsupial ....

Anna Choromanska i jej koledzy z grupy Yana LeCunna na NYU, poruszają to w swoim artykule AISTATS z 2014 r. „Strata powierzchni sieci wielowarstwowych” . Korzystając z teorii macierzy losowych, wraz z niektórymi eksperymentami, twierdzą, że:

  • W sieciach o dużych rozmiarach większość minimów lokalnych jest równoważna i zapewnia podobną wydajność w zestawie testowym.

  • Prawdopodobieństwo znalezienia „złego” (lokalnego) minimum lokalnego jest niezerowe dla małych sieci i szybko maleje wraz z rozmiarem sieci.

  • Walka o znalezienie globalnego minimum na zestawie treningowym (w przeciwieństwie do jednego z wielu dobrych lokalnych) nie jest przydatna w praktyce i może prowadzić do przeregulowania.

[Od strony 2 artykułu]

W tym widoku nie ma wielkiego powodu, aby stosować ciężkie podejścia do znalezienia globalnego minimum. Lepiej poświęcić ten czas na wypróbowanie nowych topologii sieci, funkcji, zestawów danych itp.

To powiedziawszy, wiele osób zastanawiało się nad powiększeniem lub zastąpieniem SGD. W przypadku dość małych sieci (według współczesnych standardów) te ulepszone metahurystyki wydają się robić coś, co Mavrovouniotis i Yang (2016) pokazują, że optymalizacja kolonii mrówek + backprop bije niezmodyfikowany backprop na kilku zestawach danych wzorcowych (choć niewiele). Rere el al. (2015) używają symulowanego wyżarzania do trenowania CNN i stwierdzają, że początkowo działa on lepiej na zestawie walidacyjnym. Po 10 epokach pozostaje jednak bardzo niewielka (i nie przetestowana pod kątem istotności) różnica w wydajności. Szybszą przewagę konwergencji na epokę kompensuje również znacznie większa ilość czasu obliczeń na epokę, więc nie jest to oczywiste zwycięstwo w przypadku symulowanego wyżarzania.

Możliwe, że te heurystyki lepiej wykonają inicjalizację sieci, a gdy zostanie ona wskazana właściwą ścieżką, zrobi to dowolny optymalizator. Sutskever i in. (2013) z grupy Geoffa Hintona argumentują coś takiego w swoim artykule ICML z 2013 r .

Matt Krause
źródło
17

Lokalne minima nie są tak wielkim problemem z sieciami neuronowymi, jak się często sugeruje. Niektóre lokalne minima wynikają z symetrii sieci (tzn. Możesz permutować ukryte neurony i opuścić funkcjęsieci bez zmian. Konieczne jest jedynie znalezienie dobrych lokalnych minimów zamiast globalnych minimów. Ponieważ zdarza się, że agresywna optymalizacja bardzo elastycznego modelu, takiego jak sieć neuronowa, może być receptą na nadmierne dopasowanie danych, więc użycie np. Symulowanego wyżarzania w celu znalezienia minimów globalnych kryterium szkolenia może dać sieć neuronową o gorszym wyniku wydajność uogólnienia niż trenowana przez opadanie gradientu, która kończy się w lokalnych minimach. Jeśli zastosowane zostaną te heurystyczne metody optymalizacji, radziłbym uwzględnić termin regularyzacji, aby ograniczyć złożoność modelu.

... lub alternatywnie użyj np. metody jądra lub modelu radialnej funkcji bazowej, co prawdopodobnie będzie mniejszym problemem.

Dikran Torbacz
źródło