Studiuję ograniczoną maszynę Boltzmanna (RBM) i mam pewne problemy ze zrozumieniem obliczeń prawdopodobieństwa dziennika w odniesieniu do parametrów RBM. Mimo że opublikowano wiele prac naukowych na temat RBM, nie ma szczegółowych kroków na temat pochodnych. Po przeszukaniu online udało mi się je znaleźć w tym dokumencie:
- Fischer, A., i Igel, C. (2012). Wprowadzenie do ograniczonych maszyn Boltzmann. W L. Alvarez i in. (Red.): CIARP, LNCS 7441, s. 14–36, Springer-Verlag: Berlin-Heidelberg. ( pdf )
Jednak szczegóły tego dokumentu są dla mnie zbyt zaawansowane. Czy ktoś może skierować mnie na dobry samouczek / zestaw notatek z wykładu na temat RBM?
Edycja: @David, myląca sekcja jest pokazana poniżej (równanie 29 na stronie 26):
references
rbm
Upul
źródło
źródło
Odpowiedzi:
źródło
There is a decent tutorial of RBMs on the deeplearning site.
This blog post (Introduction to Restricted Boltzmann Machines) is written in simpler language and explains the basics of RBMS really well:
Also, maybe the best reference is Geoff Hinton's Neural Networks course on Coursea:
I'm not sure if you can access the class and videos after the end of the class though.
źródło
Lewe pomarańczowe pole przedstawia oczekiwaną wartość gradientu energii we wszystkich ukrytych konfiguracjach, biorąc pod uwagę, że jakiś widoczny wektor jest zamocowany na widocznych jednostkach (oczekiwanie na dane, ponieważ wykorzystuje próbkę z zestawu treningowego). Sam termin jest iloczynem (1) prawdopodobieństwa zobaczenia konkretnej ukrytej jednostki i, biorąc pod uwagę, że pewien wektor v jest zaciśnięty na jednostkach widocznych i (2) stan konkretnej widocznej jednostki j.
Prawe pomarańczowe pudełko jest tym samym, co lewe, z tym wyjątkiem, że robisz to, co jest w lewym pomarańczowym polu dla każdej możliwej widocznej konfiguracji zamiast tylko tej, która jest zaciśnięta na widocznych jednostkach (oczekiwanie na model, ponieważ nic nie jest zaciśnięte na widocznych jednostkach).
źródło
Rozdział 5 kursu Hugo Larochelle na temat uczenia maszynowego ( wideo ) to najlepsze wprowadzenie, jakie do tej pory znalazłem.
Pochodna funkcji straty nie jest wyprowadzana na tych wykładach, ale nie jest to trudne (w razie potrzeby mogę przesłać skan moich obliczeń, ale tak naprawdę nie jest to takie trudne). Wciąż szukam dobrego podręcznika na ten temat, ale głównie są tylko artykuły. Dobry przegląd artykułów w rozdziale 20 Bengio's Deep Learning Book.
źródło