Usiłuję stworzyć matematyczne połączenie między siecią neuronową a modelem graficznym.
W modelach graficznych pomysł jest prosty: rozkład prawdopodobieństwa jest rozkładany na czynniki według klików na wykresie, przy czym potencjały zwykle należą do rodziny wykładniczej.
Czy istnieje równoważne uzasadnienie dla sieci neuronowej? Czy można wyrazić rozkład prawdopodobieństwa dla jednostek (zmiennych) w ograniczonej maszynie Boltzmanna lub CNN jako funkcję ich energii lub iloczynu energii między jednostkami?
Ponadto, czy rozkład prawdopodobieństwa jest modelowany przez RBM lub sieć głębokich przekonań (np. Z CNN) rodziny wykładniczej?
Mam nadzieję znaleźć tekst, który formalizuje połączenie między tymi nowoczesnymi typami sieci neuronowych i statystykami w taki sam sposób, jak Jordan i Wainwright dla modeli graficznych z ich modelami graficznymi, rodzinami wykładniczymi i wnioskami wariacyjnymi . Wszelkie wskazówki byłyby świetne.
źródło
"using deep nets as factors in an MRF"
), ale więcej o tym, jak spojrzeć na głęboką sieć jako wykres czynników probabilistycznych. Kiedy mówi Yann LeCun"of course deep Boltzmann Machines are a form of probabilistic factor graph themselves"
, jestem zainteresowany matematycznym widzeniem tego związku.https://distill.pub/2017/feature-visualization/
( Jak sieci neuronowe budują swoje rozumienie obrazów ), w tym, że złożony obraz ma obiekty składowe reprezentowane przez ukryte węzły warstw. Wagi mogą „zmieniać” „topologię” w sposób niedyskretny. Chociaż tego nie widziałem, niektóre metody mogą obejmować czynniki kurczenia w celu usunięcia krawędzi, a tym samym zmiany oryginalnej topologiiOdpowiedzi:
Innym dobrym wprowadzeniem na ten temat jest kurs CSC321 na Uniwersytecie w Toronto oraz kurs sieci neuronowych-2012-001 na Coursera, oba prowadzone przez Geoffreya Hintona.
Z filmu na temat sieci przekonań:
Modele graficzne
We wczesnych modelach graficznych eksperci zdefiniowali strukturę grafu i prawdopodobieństwa warunkowe. Wykresy były słabo powiązane, a skupiono się na prawidłowym wnioskowaniu, a nie na uczeniu się (wiedza pochodziła od ekspertów).
Sieci neuronowe
W przypadku sieci neuronowych nauka była najważniejsza. Okablowanie wiedzy nie było fajne (OK, może trochę). Uczenie się pochodziło z uczenia się danych szkoleniowych, a nie od ekspertów. Sieci neuronowe nie miały na celu interpretacji rzadkiej łączności, aby ułatwić wnioskowanie. Niemniej jednak istnieją wersje sieci przekonań w sieci neuronowej.
Rozumiem, że sieci przekonań są zwykle zbyt gęsto połączone, a ich kliki są zbyt duże, aby można je było interpretować. Sieci przekonań używają funkcji sigmoidalnej do integracji danych wejściowych, podczas gdy ciągłe modele graficzne zwykle wykorzystują funkcję Gaussa. Sigmoid ułatwia szkolenie sieci, ale trudniej ją interpretować pod względem prawdopodobieństwa. Uważam, że oboje należą do wykładniczej rodziny.
Nie jestem ekspertem w tej dziedzinie, ale notatki z wykładów i filmy są świetnym źródłem.
źródło
Radford Neal wykonał sporo pracy w tym obszarze, która może cię zainteresować, w tym bezpośrednią pracę nad zrównaniem bayesowskich modeli graficznych z sieciami neuronowymi. (Jego rozprawa najwyraźniej dotyczyła tego konkretnego tematu).
Nie jestem wystarczająco zaznajomiony z tą pracą, aby zapewnić inteligentne streszczenie, ale chciałem dać ci wskaźnik na wypadek, gdyby okazał się pomocny.
źródło
To może być stary wątek, ale wciąż istotne pytanie.
Najbardziej znanym przykładem połączeń między sieciami neuronowymi (NN) a probabilistycznymi modelami graficznymi (PGM) jest ten między maszynami Boltzmanna (i jego odmianami, jak Ograniczone BM, Głębokie BM itp.) I niekierowanymi PGM pola losowego Markowa.
Podobnie, Belief Networks (i jego odmiany, takie jak Deep BN itp.) Są rodzajem ukierunkowanych PGM wykresów bayesowskich
Aby uzyskać więcej informacji, zobacz:
źródło