Jakie są alternatywy dla wymiaru VC do pomiaru złożoności sieci neuronowych?

16

Natknąłem się na kilka podstawowych sposobów pomiaru złożoności sieci neuronowych:

Czy są inne alternatywy?

Preferowane jest:

  • Jeśli metryka złożoności może być wykorzystana do pomiaru sieci neuronowych z różnych paradygmatów (do pomiaru propagacji wstecznej, sieci neuronowych dynamiki, korelacji kaskadowej itp.) Na tej samej skali. Na przykład wymiar VC może być stosowany do różnych typów w sieciach (a nawet do rzeczy innych niż sieci neuronowe), podczas gdy liczba neuronów jest przydatna tylko między bardzo konkretnymi modelami, w których funkcja aktywacji, sygnały (sumy podstawowe vs. skoki) i inne właściwości sieci są takie same.
  • Jeśli ma niezłą zgodność ze standardowymi miarami złożoności funkcji, które można poznać w sieci
  • Jeśli łatwo jest obliczyć metrykę w określonych sieciach (ta ostatnia nie jest jednak koniecznością).

Notatki

To pytanie jest oparte na bardziej ogólnym pytaniu na CogSci.SE.

Artem Kaznatcheev
źródło
3
Czy złożoność nie powinna również zależeć od algorytmu uczenia się? Wymiar VC jest zwykle stosowany do metod z wypukłymi funkcjami strat. Jeśli masz utratę niewypukłą, możesz znaleźć się w sytuacji, w której model byłby w stanie oddzielić niektóre punkty, ale algorytm uczenia się nigdy nie znajdzie tego rozwiązania. Dlatego uważam, że granice przy użyciu struktury sieci powinny być dość trudne. Zgadzam się z @tdc, że błąd uogólnienia jest właściwą drogą. Dokument Vapnika na temat statystycznej teorii uczenia się może być dobrym miejscem do rozpoczęcia nauki na ten temat.
Andreas Mueller

Odpowiedzi:

8

Warto zajrzeć do artykułu „(Nie) Bounding the True Error” autorstwa Johna Langforda i Rich Caruana (NIPS, 2001)

Abstrakt stwierdza:

Prezentujemy nowe podejście do ograniczania prawdziwego poziomu błędu klasyfikatora o ciągłej wycenie w oparciu o granice PAC-Bayesa. Metoda najpierw konstruuje rozkład między klasyfikatorami, określając, jak wrażliwy jest każdy parametr w modelu na szum. Rzeczywisty poziom błędu stochastycznego klasyfikatora znaleziony w analizie czułości można następnie ściśle powiązać za pomocą wiązania PAC-Bayesa. W tym artykule zademonstrowaliśmy metodę sztucznych sieci neuronowych z wynikami poprawy rzędu 2 3 rzędów w porównaniu z najlepszymi deterministycznymi granicami sieci neuronowej.

Pokazują, że można zastosować granice stylu PAC-Bayesa do stochastycznych sieci neuronowych. Jednak analiza dotyczy tylko 2-warstwowych sieci neuronowych z przekazywaniem sygnału z sigmoidalną funkcją przenoszenia. W takim przypadku termin złożoności zależy tylko od liczby węzłów i wariancji wag. Pokazują, że dla tego ustawienia granica skutecznie przewiduje, kiedy nastąpi nadmierny trening. Niestety tak naprawdę nie trafia w żadną z twoich „preferowanych” właściwości!

tdc
źródło
+1, które wygląda świetnie - dziękuję, spojrzę. Ale zgadzam się, że nie pasuje do żadnej z preferowanych właściwości i na pierwszy rzut oka nie wydaje się tak naprawdę mierzyć złożoności sieci, jak jej wydajności ... ale myślę, że są one nierozłączne.
Artem Kaznatcheev
Co to patrząc na to Uogólnienie błąd . Tworzone granice zwykle zawierają termin oparty na błędzie szkolenia, a termin karny oparty na złożoności modelu. Interesuje Cię tylko termin złożoności, ale będzie on składnikiem niemal każdej granicy. Ten film wyjaśnia to lepiej niż potrafię!
tdc
myślę, że ten kierunek jest nieprawidłowy. błąd różni się znacznie od złożoności sieci. chociaż istniejąca teoria może je zatrzeć. prostym przykładem jest nadmierne dopasowanie, gdy błąd jest niski, ale złożoność wysoka. również błąd może zachowywać się w sposób sprzeczny z intuicją, w przeciwieństwie do złożoności. takie jak stronniczość. wygląda na to, że mała sieć może nie docenić błędu. etcetera
@vzn, ale błąd generalizacji jest błędem w przyszłych danych - tzn. jeśli masz niski błąd szkolenia i wysoką złożoność, granica błędu będzie luźna.
tdc
3

Ponadto może zainteresować Cię praca wymiaru miażdżąca tłuszcz, którą wykonał profesor Peter Bartlett. Oto wprowadzenie do analizy złożoności sieci neuronowej w artykule IEEE z 1998 r .: Przykładowa złożoność klasyfikacji wzorców w sieciach neuronowych: Wielkość wag jest ważniejsza niż rozmiar sieci (Bartlett 1998) [ http: //ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=661502]

Shaun Singh
źródło