Podczas gdy faktycznie programowałem na maszynach Boltzmanna na zajęciach z fizyki, nie znam ich teoretycznej charakterystyki. W przeciwieństwie do tego znam skromną wiedzę na temat teorii modeli graficznych (o kilku pierwszych rozdziałach książki Lauritzen Modele graficzne ).
Pytanie: Czy istnieje jakiś znaczący związek między modelami graficznymi a maszyną Boltzmanna? Czy maszyna Boltzmanna jest rodzajem modelu graficznego?
Oczywiście maszyna Boltzmanna jest rodzajem sieci neuronowej. Słyszałem, że niektóre sieci neuronowe są matematycznie powiązane z modelami graficznymi, a niektóre nie.
Powiązane pytania dotyczące CrossValidated, które nie odpowiadają na moje pytanie:
Jest to podobne do poprzedniego pytania, które zostało zadane wcześniej: Jaki jest związek między modelami hierarchicznymi, sieciami neuronowymi, modelami graficznymi, sieciami bayesowskimi? ale jest bardziej szczegółowy.
Co więcej, zaakceptowana odpowiedź na to pytanie nie wyjaśnia mojego zamieszania - nawet jeśli węzły w standardowej graficznej reprezentacji sieci neuronowej nie reprezentują zmiennych losowych, to niekoniecznie oznacza, że taka reprezentacja nie istnieje. Konkretnie mam na myśli o tym, jak węzły w typowej graficznej reprezentacji łańcuchów Markowa reprezentuje zbiór możliwych stanów zamiast zmienne losowe , ale można też utworzyć wykres przedstawiający warunkowe relacje zależności między X I, co pokazuje, że każdy łańcuch Markowa jest w rzeczywistości losowym polem Markowa. Odpowiedź mówi również, że sieci neuronowe (przypuszczalnie obejmujące maszyny Boltzmanna) są „dyskryminujące”, ale nie wnikają bardziej szczegółowo w wyjaśnienie, co oznacza to twierdzenie, ani też oczywiste pytanie uzupełniające „czy modele graficzne nie są dyskryminujące?” zaadresowany. Podobnie, zaakceptowana odpowiedź prowadzi do strony Kevina Murphy'ego (faktycznie czytam niektóre z jego rozpraw doktorskich, kiedy dowiaduję się o sieci bayesowskie), ale ta strona internetowa omawia tylko sieci bayesowskie i wcale nie wspomina o sieciach neuronowych - dlatego też nie wyjaśnia, w jaki sposób są różne.
To drugie pytanie jest prawdopodobnie najbardziej podobne do mojego: Modelowanie matematyczne sieci neuronowych jako modeli graficznych Jednak żadna z odpowiedzi nie została zaakceptowana i podobnie podaje tylko referencje, ale nie wyjaśniają referencji (np. Ta odpowiedź ). Mam nadzieję, że pewnego dnia będę w stanie zrozumieć odniesienia, ale teraz jestem na podstawowym poziomie wiedzy i najbardziej doceniłbym odpowiedź, która jest tak uproszczona, jak to możliwe. Również kurs w Toronto, do którego link znajduje się w górnej odpowiedzi ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ), rozwiązuje ten problem, ale nie jest zbyt szczegółowy. Ponadto notatki do jednego wykładu, które mogłyby odpowiedzieć na moje pytanie, nie są publicznie dostępne.
25 marca Wykład 13b: Sieci wierzeń 7:43. Na tym slajdzie pamiętaj o maszynach Boltzmann. Tam też mamy ukryte jednostki i widoczne jednostki, i to wszystko jest probabilistyczne. BM i SBN mają więcej wspólnego niż różnice. 9:16. W dzisiejszych czasach „modele graficzne” są czasem uważane za specjalną kategorię sieci neuronowych, ale w opisanej tutaj historii były one uważane za bardzo różne typy systemów.
To tylko potwierdza / weryfikuje przyjętą odpowiedź, że maszyny Boltzmanna są rzeczywiście szczególnym przypadkiem modelu graficznego. W szczególności pytanie to jest adresowane na s. 127–127 Kollera, Friedmana, Probabilistyczne modele graficzne: zasady i techniki , w ramce 4.C.
Jak model Isinga, pierwotnie koncepcja z literatury mechaniki statystycznej, może zostać sformułowany jako model graficzny, jest szczegółowo opisany w przykładzie 3.1., Sekcja 3.3., Na str. 41-43 Wainwright, Jordan, Modele graficzne, wykładniczy Rodziny i wnioskowanie wariacyjne .
Najwyraźniej model Isinga odegrał kluczową rolę w tworzeniu modeli graficznych pod koniec lat siedemdziesiątych i na początku lat osiemdziesiątych, przynajmniej w oparciu o to, co mówi Steffen Lauritzen zarówno we wstępie, jak i we wstępie do swojej książki, modele graficzne . Ta interpretacja wydaje się również poparta przez punkt 4.8 wyżej cytowanej książki Koller i Friedman.
Rozwój maszyn Boltzmanna z modelu Isinga mógł być niezależnym wydarzeniem, opartym również na tej samej sekcji Kollera i Friedmana, który twierdzi, że „Maszyny Boltzmanna zostały po raz pierwszy zaproponowane przez Hintona i Sejnowskiego (1983)”, co wydaje się mieć nastąpiło po początkowej pracy nad opracowaniem losowych pól Markowa jako uogólnienia modelu Isinga, chociaż prace nad tym opracowaniem mogły rozpocząć się znacznie wcześniej niż w 1983 r.
Moje zamieszanie związane z tą relacją, gdy pisałem to pytanie ponad rok temu, wynikało z faktu, że w literaturze fizyki po raz pierwszy spotkałem zarówno model Isinga, jak i model maszyny Boltzmanna dla neuronów. Jak wspominają Koller i Friedman, literatura w społeczności fizyki statystycznej na temat modelu Isinga i powiązanych pojęć jest naprawdę ogromna.
Z mojego doświadczenia wynika, że jest on dość wyspiarski, w tym sensie, że chociaż statystycy i informatycy badający modele graficzne wspominają, w jaki sposób pole jest powiązane z mechaniką statystyczną, żadne odniesienie, którego nigdy nie znalazłem w literaturze fizyki statystycznej, nie wspomina o powiązaniach z innymi dziedzinami lub próbuje to wykorzystać. (Stąd wzbudzanie we mnie wątpliwości i dezorientacja na myśl, że mogą istnieć jakiekolwiek powiązania z innymi dziedzinami).
Przykład perspektywy fizyka na model Isinga i maszynę Boltzmanna można znaleźć w podręczniku z kursu, w którym po raz pierwszy się o nim dowiedziałem. Wspomina także o średnich metodach polowych, o ile dobrze pamiętam, o czym również dyskutowałem w cytowanym powyżej artykule Jordan i Wainwright.
źródło