Nowoczesne sieci neuronowe, które budują własną topologię

21

Ograniczenia standardowych algorytmów sieci neuronowej (takich jak backprop) są takie, że musisz podjąć decyzję projektową, ile ukrytych warstw i neuronów na warstwę chcesz. Zwykle szybkość uczenia się i uogólnienie są bardzo wrażliwe na te wybory. Z tego powodu algorytmy sieci neuronowej, takie jak korelacja kaskadowa, wzbudzają zainteresowanie. Zaczyna się od minimalnej topologii (tylko jednostka wejściowa i wyjściowa) i rekrutuje nowe ukryte jednostki w miarę postępu nauki.

Algorytm CC-NN został wprowadzony przez Fahlmana w 1990 r., A wersja cykliczna w 1991 r. Jakie są nowsze (po 1992 r.) Algorytmy sieci neuronowej, które zaczynają się od minimalnej topologii?


Powiązane pytania

CogSci.SE: Sieci neuronowe z biologicznie wiarygodnymi opisami neurogenezy

Artem Kaznatcheev
źródło
Możliwe jest eksperymentowanie z sieciami neuronowymi opartymi na losowej projekcji. Wpis na blogu Kod (github)
Sean O'Connor

Odpowiedzi:

10

Niejawne pytanie brzmi: w jaki sposób można określić topologię / strukturę sieci neuronowej lub modelu uczenia maszynowego, aby model miał „odpowiedni rozmiar” i nie był zbytnio dopasowany / niedopasowany.

Od czasu korelacji kaskadowej w 1990 r. Istnieje teraz wiele metod wykonywania tego, wiele z nich o znacznie lepszych właściwościach statystycznych lub obliczeniowych:

  • pobudzanie: trenuj słabego ucznia na raz, z każdym słabym uczniem poddanym zmianie zestawu treningów, tak aby uczył się rzeczy, których nie nauczyli się poprzedni uczniowie.
  • sprowadzanie do rzadkości regularyzacji, takiej jak lasso lub automatyczne określanie trafności: zacznij od dużego modelu / sieci i użyj regulatora, który zachęca niepotrzebne jednostki do „wyłączenia”, pozostawiając te, które są przydatne, aktywne.
  • Bayesowskie parametry nieparametryczne: zapomnij znaleźć „właściwy” rozmiar modelu. Po prostu użyj jednego dużego modelu i bądź ostrożny z regularyzacją / byciem Bayesianem, abyś nie pasował. Na przykład sieć neuronowa o nieskończonej liczbie jednostek i priory Gaussa może być wyprowadzona jako proces Gaussa, który okazuje się o wiele prostszy do wyszkolenia.
  • Głębokie uczenie się: jak zauważono w innej odpowiedzi, trenuj głęboką sieć po jednej warstwie. To tak naprawdę nie rozwiązuje problemu określania liczby jednostek na warstwę - często jest to wciąż ustawiane ręcznie lub przez krzyżową weryfikację.

źródło
4

Jak rozumiem, dzisiejszą sztuką jest „Uczenie się funkcji bez nadzoru i głębokie uczenie się”. w skrócie: sieć jest szkolona w sposób nienadzorowany, każda warstwa na raz:

Dow
źródło
czy zaczyna się od minimalnej liczby neuronów (tylko wejścia i wyjścia)?
Artem Kaznatcheev,
głębokie uczenie się zawiera szeroką gamę metod dla sieci neuronowych z wieloma ukrytymi warstwami. Nie znam takich metod, które określają liczbę neuronów, ale może Google Scholar wie więcej ...
Ran,
Afaik numer jest wcześniej ustalany we wszystkich obecnych metodach konkurencyjnych. Jest to nieco problem, ponieważ oznacza to, że istnieje wiele hiper parametrów. Aby temu zaradzić, James Bergstra niedawno zaproponował zastosowanie Procesów Gaussa do znalezienia najlepszych ustawień hiperparametrów9http: //people.fas.harvard.edu/~bergstra/files/pub/11_nips_hyperopt.pdf). Jest to jednak rodzaj „zewnętrznej pętli”, która w inteligentny sposób wypróbowuje wiele różnych ustawień.
Andreas Mueller
4

Wspomniano już o NEAT (ewolucja neuronowa z topologiami rozszerzającymi). Istnieją postępy w tym zakresie, w tym specjacja i HyperNEAT. HyperNEAT wykorzystuje sieć „meta” w celu optymalizacji wagi w pełni połączonego fenotypu. Daje to sieciową „świadomość przestrzenną”, która jest nieoceniona w rozpoznawaniu obrazów i problemach z typem gry planszowej. Nie jesteś ograniczony do 2D. Używam go w 1D do analizy sygnału i 2D w górę jest możliwe, ale staje się ciężkie z powodu wymagań przetwarzania. Poszukaj prac Kena Stanleya i tam jest grupa na Yahoo. Jeśli masz problem, który można rozwiązać za pomocą sieci, może mieć zastosowanie NEAT i / lub HyperNEAT.


źródło
3

Istnieje dość niedawny artykuł na ten temat: RP Adams, H. Wallach i Zoubin Ghahramani. Poznanie struktury głębokich rzadkich modeli graficznych. Jest to nieco poza zwykłą społecznością sieci neuronowych i bardziej po stronie uczenia maszynowego. W pracy wykorzystano nieparametryczne wnioskowanie bayesowskie na strukturze sieci.

Andreas Mueller
źródło