Modelowanie matematyczne sieci neuronowych jako modeli graficznych

12

Usiłuję stworzyć matematyczne połączenie między siecią neuronową a modelem graficznym.

W modelach graficznych pomysł jest prosty: rozkład prawdopodobieństwa jest rozkładany na czynniki według klików na wykresie, przy czym potencjały zwykle należą do rodziny wykładniczej.

Czy istnieje równoważne uzasadnienie dla sieci neuronowej? Czy można wyrazić rozkład prawdopodobieństwa dla jednostek (zmiennych) w ograniczonej maszynie Boltzmanna lub CNN jako funkcję ich energii lub iloczynu energii między jednostkami?

Ponadto, czy rozkład prawdopodobieństwa jest modelowany przez RBM lub sieć głębokich przekonań (np. Z CNN) rodziny wykładniczej?

Mam nadzieję znaleźć tekst, który formalizuje połączenie między tymi nowoczesnymi typami sieci neuronowych i statystykami w taki sam sposób, jak Jordan i Wainwright dla modeli graficznych z ich modelami graficznymi, rodzinami wykładniczymi i wnioskami wariacyjnymi . Wszelkie wskazówki byłyby świetne.

Amelio Vazquez-Reina
źródło
1
IM (hejterów) O głównym problemem tutaj jest to, że sieci neuronowe tak naprawdę nie są sieciami; mają one praktycznie ustaloną topologię, a zatem mają niewielką szansę na przechowywanie w niej wszelkich informacji.
Czy widziałeś ten ostatni post ?
jerad
@jerad Dzięki, nie przeczytałem tego postu. Moje pytanie nie dotyczy raczej tego, jak łączyć te modele (np. Jak mówi Yann "using deep nets as factors in an MRF"), ale więcej o tym, jak spojrzeć na głęboką sieć jako wykres czynników probabilistycznych. Kiedy mówi Yann LeCun "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", jestem zainteresowany matematycznym widzeniem tego związku.
Amelio Vazquez-Reina,
@mbq, widzieliśmy niektóre formy przechowywania informacji o komponentach warstwy ukrytej, np. https://distill.pub/2017/feature-visualization/( Jak sieci neuronowe budują swoje rozumienie obrazów ), w tym, że złożony obraz ma obiekty składowe reprezentowane przez ukryte węzły warstw. Wagi mogą „zmieniać” „topologię” w sposób niedyskretny. Chociaż tego nie widziałem, niektóre metody mogą obejmować czynniki kurczenia w celu usunięcia krawędzi, a tym samym zmiany oryginalnej topologii
Vass

Odpowiedzi:

6

Innym dobrym wprowadzeniem na ten temat jest kurs CSC321 na Uniwersytecie w Toronto oraz kurs sieci neuronowych-2012-001 na Coursera, oba prowadzone przez Geoffreya Hintona.

Z filmu na temat sieci przekonań:

Modele graficzne

We wczesnych modelach graficznych eksperci zdefiniowali strukturę grafu i prawdopodobieństwa warunkowe. Wykresy były słabo powiązane, a skupiono się na prawidłowym wnioskowaniu, a nie na uczeniu się (wiedza pochodziła od ekspertów).

Sieci neuronowe

W przypadku sieci neuronowych nauka była najważniejsza. Okablowanie wiedzy nie było fajne (OK, może trochę). Uczenie się pochodziło z uczenia się danych szkoleniowych, a nie od ekspertów. Sieci neuronowe nie miały na celu interpretacji rzadkiej łączności, aby ułatwić wnioskowanie. Niemniej jednak istnieją wersje sieci przekonań w sieci neuronowej.


Rozumiem, że sieci przekonań są zwykle zbyt gęsto połączone, a ich kliki są zbyt duże, aby można je było interpretować. Sieci przekonań używają funkcji sigmoidalnej do integracji danych wejściowych, podczas gdy ciągłe modele graficzne zwykle wykorzystują funkcję Gaussa. Sigmoid ułatwia szkolenie sieci, ale trudniej ją interpretować pod względem prawdopodobieństwa. Uważam, że oboje należą do wykładniczej rodziny.

Nie jestem ekspertem w tej dziedzinie, ale notatki z wykładów i filmy są świetnym źródłem.

ostrokach
źródło
1
Witamy na stronie. Staramy się zbudować stałe repozytorium wysokiej jakości informacji statystycznych w formie pytań i odpowiedzi. Dlatego też obawiamy się odpowiedzi typu „tylko link” z powodu linkrot. Czy możesz zamieścić pełny cytat i podsumowanie informacji pod linkiem, na wypadek gdyby zgasły?
Gung - Przywróć Monikę
To jest naprawdę miłe. Dziękujemy za dodanie tej informacji i witamy w CV.
Gung - Przywróć Monikę
Muszę zaznaczyć, że informacje w pierwszej połowie twojej odpowiedzi nie są całkiem dokładne, co, jak sądzę, wynika z zastosowania „wczesnych modeli graficznych” (powinno być „bardzo wcześnie”). Przez bardzo długi czas modele graficzne były wykorzystywane do uczenia się wszystkich aspektów jego architektury w taki sam sposób, jak w przypadku sieci neuronowych. Ale twoja późniejsza sugestia dotycząca sigmoidów zajmujących miejsce gaussianów na wykresach czynnikowych jest interesująca!
GuSuku,
4

Radford Neal wykonał sporo pracy w tym obszarze, która może cię zainteresować, w tym bezpośrednią pracę nad zrównaniem bayesowskich modeli graficznych z sieciami neuronowymi. (Jego rozprawa najwyraźniej dotyczyła tego konkretnego tematu).

Nie jestem wystarczająco zaznajomiony z tą pracą, aby zapewnić inteligentne streszczenie, ale chciałem dać ci wskaźnik na wypadek, gdyby okazał się pomocny.

lmjohns3
źródło
Z tego, co rozumiem z prac Neala, Mackaya itp., Używają Optymalizacji Bayesowskiej, gdzie parametrami do optymalizacji są wagi i tendencje neuronowe, a nawet pokażą, że normalizacja L2 sieci neuronowych może być postrzegana jako Gaussa przed ciężary Program ten nadal zawiera liczbę ukrytych warstw, neuronów w każdej warstwie itp. Wśród zmiennych optymalizacyjnych.
GuSuku,
Ale różni się to od tego, o co poprosił OP, ponieważ zaprojektowanie architektury sieci neuronowej do wypróbowania w następnym uruchomieniu jest tylko jednym szczególnym przypadkiem projektowania eksperymentalnego z wykorzystaniem modeli Bayesian jako silnika hiper-projektowania. Myślę, że OP wymagało mapowania sieci neuronowej i modelowania bayesowskiego na „tym samym poziomie”.
GuSuku,
4

To może być stary wątek, ale wciąż istotne pytanie.

Najbardziej znanym przykładem połączeń między sieciami neuronowymi (NN) a probabilistycznymi modelami graficznymi (PGM) jest ten między maszynami Boltzmanna (i jego odmianami, jak Ograniczone BM, Głębokie BM itp.) I niekierowanymi PGM pola losowego Markowa.

Podobnie, Belief Networks (i jego odmiany, takie jak Deep BN itp.) Są rodzajem ukierunkowanych PGM wykresów bayesowskich

Aby uzyskać więcej informacji, zobacz:

  1. Yann Lecun, „ Samouczek dotyczący nauki opartej na energii ” (2006)
  2. Yoshua Bengio, Ian Goodfellow i Aaron Courville, „Deep Learning”, rozdział 16 i 20 (książka w przygotowaniu, w momencie pisania tego tekstu)
GuSuku
źródło