Sieci głębokiej wiary czy głębokie maszyny Boltzmanna?

28

Jestem zmieszany. Czy istnieje różnica między sieciami Deep głęboko przekonaniami a maszynami Deep Boltzmann? Jeśli tak, jaka jest różnica?

Jack Twain
źródło
2
artykuł w Wikipedii na temat sieci głębokich przekonań jest dość jasny, chociaż przydatne / wnikliwe byłoby posiadanie szerszego obrazu etymologii / historii terminów. w zasadzie sieć głębokich przekonań jest dość analogiczna do głębokiej sieci neuronowej z prawdopodobieństwa pow, a głębokie maszyny boltzmanna są jednym algorytmem stosowanym do implementacji sieci głębokich przekonań. najwyraźniej wszystkie ANN mają interpretacje / modele probabilistyczne, ale nie są tak łatwe / bezpośrednie, jak niektóre bayesowskie / probabilistyczne modele „przekonań”.
dniu

Odpowiedzi:

19

Chociaż sieci Deep Belief Networks (DBN) i Deep Boltzmann Machines (DBM) wyglądają schematycznie bardzo podobnie, w rzeczywistości są bardzo jakościowo bardzo różne. Jest tak, ponieważ DBN są kierowane, a DBM są przekierowywane. Gdybyśmy chcieli dopasować je do szerszego obrazu ML, moglibyśmy powiedzieć, że DBN to sigmoidalne sieci przekonań z wieloma gęsto połączonymi warstwami ukrytych zmiennych, a DBM to losowe pola markowa z wieloma gęsto połączonymi warstwami ukrytych zmiennych.

Jako takie dziedziczą wszystkie właściwości tych modeli. Na przykład w DBN obliczającym , gdzie v jest widoczną warstwą, a h są ukrytymi zmiennymi, jest łatwe. Z drugiej strony, obliczanie P czegokolwiek jest zwykle niewykonalne obliczeniowo w DBM ze względu na trudną funkcję podziału.P.(v|h)vhP.

Biorąc to pod uwagę, istnieją podobieństwa. Na przykład:

  1. DBN i oryginalny DBM działają zarówno przy użyciu schematów inicjalizacji opartych na chciwym szkoleniu warstwowym ograniczonych maszyn Bolzmann (RBM),
  2. Oba są „głębokie”.
  3. Oba mają warstwy ukrytych zmiennych, które są gęsto połączone z warstwami powyżej i poniżej, ale nie mają połączeń międzywarstwowych itp.
alt
źródło
1
Jak DBN mogą być sigmoidalnymi sieciami przekonań? !! Warstwy DBN są RBM, więc każda warstwa jest losowym polem markowa!
Jack Twain
Myślę, że jest tu literówka „Dzieje się tak, ponieważ DBM są kierowane, a DBM nie są przekierowywane”. Myślę, że miałeś na myśli, że DBN nie są przekierowywani
Jack Twain
@AlexTwain Tak, powinienem przeczytać „DBN są kierowane”. Mimo że możesz zainicjalizować DBN, najpierw ucząc się kilku RBM, na końcu zazwyczaj rozwiązujesz wagi i kończysz się głęboką sigmoidalną siecią przekonań (wyreżyserowaną). W wielu oryginalnych pracach DBN ludzie pozostawili górną warstwę bez ukierunkowania, a następnie ukarani grzywną dostrojoną czymś w rodzaju przebudzenia, w którym to przypadku masz hybrydę.
alt
Czy chodzi ci o to, że w 3. nie mają połączeń międzywarstwowych (np. Między węzłami w ukrytej warstwie) zamiast * międzywarstwy (np. Od wejścia do ukrytej warstwy)?
ddiez
@ddiez Tak, tak to powinno czytać. Dzięki za korektę.
alt
4

Oba są probabilistycznymi modelami graficznymi składającymi się ze skumulowanych warstw KMS. Różnica polega na sposobie łączenia tych warstw.

Ten link wyjaśnia: http://jmlr.org/proceedings/papers/v5/salakhutdinov09a/salakhutdinov09a.pdf . Ryc. 2 i sekcja 3.1 są szczególnie istotne.

Podsumować:

W DBN połączenia między warstwami są kierowane. Dlatego pierwsze dwie warstwy tworzą RBM (niekierowany model graficzny), a następnie kolejne warstwy tworzą ukierunkowany model generatywny.

W DBM połączenie między wszystkimi warstwami nie jest przekierowywane, dlatego każda para warstw tworzy RBM.

Darkensberge
źródło
więc głęboka maszyna Boltzmanna jest nadal zbudowana z KMS? Swoje wnioski opieram na wstępie i obrazie w artykule
Marin