Opierając się na małej wiedzy, którą mam na temat metod MCMC (łańcuch Markowa Monte Carlo), rozumiem, że pobieranie próbek jest kluczową częścią wyżej wspomnianej techniki. Najczęściej stosowanymi metodami próbkowania są Hamiltonian i Metropolis.
Czy istnieje sposób wykorzystania uczenia maszynowego, a nawet uczenia głębokiego w celu stworzenia bardziej wydajnego samplera MCMC?
Odpowiedzi:
Tak. W przeciwieństwie do innych odpowiedzi, „typowe” metody uczenia maszynowego, takie jak nieparametryczne i (głębokie) sieci neuronowe, mogą pomóc w tworzeniu lepszych samplerów MCMC.
Celem MCMC jest pobranie próbek z (nienormalizowanego) rozkładu docelowego . Uzyskane próbki są używane do przybliżenia i najczęściej pozwalają obliczyć oczekiwania funkcji dla (tj. Całki wielowymiarowe), a w szczególności właściwości (takie jak momenty).fa( x ) fa fa fa
Próbkowanie zwykle wymaga dużej liczby ocen i ewentualnie jego gradientu, dla metod takich jak Hamiltonian Monte Carlo (HMC). Jeśli ocena jest kosztowna lub gradient jest niedostępny, czasami można zbudować tańszą funkcję zastępczą, która może pomóc w próbkowaniu i jest oceniana zamiast (w sposób, który nadal zachowuje właściwości MCMC).fa fa fa
Na przykład w artykule podsumowującym ( Rasmussen 2003 ) proponuje się wykorzystanie Procesów Gaussa (aproksymacja funkcji nieparametrycznej) do zbudowania aproksymacji do i wykonania HMC dla funkcji zastępczej, z jedynie etapem akceptacji / odrzucenia HMC na podstawie . Zmniejsza to liczbę ocen oryginalnego i pozwala wykonać MCMC na plikach pdf, które w innym przypadku byłyby zbyt drogie do oceny.logfa fa fa
Pomysł wykorzystania surogatów w celu przyspieszenia MCMC był często badany w ciągu ostatnich kilku lat, zasadniczo poprzez wypróbowanie różnych sposobów budowy funkcji zastępczej i łączenia jej efektywnie / adaptacyjnie z różnymi metodami MCMC (i w sposób, który zachowuje poprawność „pobierania próbek MCMC). W związku z pytaniem te dwa najnowsze artykuły wykorzystują zaawansowane techniki uczenia maszynowego - losowe sieci ( Zhang i in. 2015 ) lub adaptacyjnie poznane wykładnicze funkcje jądra ( Strathmann i in. 2015 ) - do zbudowania funkcji zastępczej.
HMC nie jest jedyną formą MCMC, która może korzystać z surogatów. Na przykład Nishiara i in. (2014) zbuduj aproksymację docelowej gęstości, dopasowując wielowymiarowy rozkład Studenta do stanu wielołańcuchowego zespołu próbkującego zestaw, i użyj go do wykonania uogólnionej formy eliptycznego próbkowania wycinka .t
To tylko przykłady. Ogólnie rzecz biorąc, do wyodrębnienia informacji, które mogłyby poprawić wydajność próbników MCMC, można użyć szeregu różnych technik ML (głównie w zakresie aproksymacji funkcji i szacowania gęstości) . Ich faktyczna użyteczność - np. Mierzona liczbą „skutecznych niezależnych próbek na sekundę” - zależy od tego, czy jest kosztowny lub nieco trudny do obliczenia; ponadto wiele z tych metod może wymagać dostrajania własnej lub dodatkowej wiedzy, co ogranicza ich zastosowanie.fa
Referencje:
Rasmussen, Carl Edward. „Procesy gaussowskie przyspieszające hybrydowe Monte Carlo dla drogich całek bayesowskich”. Bayesian Statistics 7. 2003.
Zhang, Cheng, Babak Shahbaba i Hongkai Zhao. „Przyspieszenie Hamiltonian Monte Carlo za pomocą funkcji zastępczych z losowymi zasadami”. nadruk arXiv arXiv: 1506.05555 (2015).
Strathmann, Heiko i in. „Bez gradientu Hamiltonian Monte Carlo z wydajnymi rodzinami wykładniczymi jądra”. Postępy w systemach przetwarzania informacji neuronowych. 2015 r.
Nishihara, Robert, Iain Murray i Ryan P. Adams. „Równoległe MCMC z uogólnionym eliptycznym próbkowaniem wycinków”. Journal of Machine Learning Research 15.1 (2014): 2087-2112.
źródło
Metodą, która mogłaby połączyć te dwie koncepcje, jest wielowymiarowy algorytm Metropolis Hastings. W tym przypadku mamy rozkład docelowy (rozkład tylny) i rozkład propozycji (zwykle wielowymiarowy rozkład normalny lub rozkład t).
Dobrze znany jest fakt, że im dalej rozkład propozycji jest od rozkładu tylnego, tym mniej skuteczny jest sampler. Można więc sobie wyobrazić zastosowanie jakiejś metody uczenia maszynowego do zbudowania rozkładu propozycji, który lepiej pasuje do prawdziwego rozkładu tylnego niż zwykły wielowymiarowy rozkład normalny / t.
Nie jest jednak jasne, czy byłaby to jakakolwiek poprawa wydajności. Sugerując głębokie uczenie się, zakładam, że możesz być zainteresowany zastosowaniem pewnego rodzaju podejścia do sieci neuronowej. W większości przypadków byłoby to znacznie droższe obliczeniowo niż sama metoda waniliowej metody MCMC. Podobnie, nie znam żadnego powodu, dla którego metody NN (lub nawet większość metod uczenia maszynowego) wykonują dobrą pracę, zapewniając odpowiednią gęstość poza obserwowaną przestrzenią, co jest kluczowe dla MCMC. Dlatego nawet ignorując koszty obliczeniowe związane z budowaniem modelu uczenia maszynowego, nie widzę dobrego powodu, dla którego poprawiłoby to wydajność próbkowania.
źródło
Uczenie maszynowe dotyczy prognozowania, klasyfikacji lub grupowania w nadzorowanym lub nienadzorowanym otoczeniu. Z drugiej strony MCMC zajmuje się po prostu oceną złożonego intergrala (zwykle bez formy zamkniętej) przy użyciu probabilistycznych metod numerycznych. Próbkowanie Metropolis zdecydowanie nie jest najczęściej stosowanym podejściem. W rzeczywistości jest to jedyna metoda MCMC, która nie ma żadnego elementu probabilistycznego. W takim przypadku ML nie poinformuje o tym MCMC.
Próbkowanie oparte znaczenie ma wymagać probabilistyczny komponent. Jest bardziej wydajny niż Metropolis przy pewnych podstawowych założeniach. Do oszacowania tego elementu probabilistycznego można zastosować metody ML, jeśli zgadza się on z pewnymi założeniami. Przykładami mogą być grupowanie wielowymiarowe w celu oszacowania złożonej, wysoko wymiarowej gęstości Gaussa. Nie znam nieparametrycznego podejścia do tego problemu, ale może to być interesujący obszar rozwoju.
Niemniej jednak ML wyróżnia się jako odrębny etap w procesie szacowania modelu złożonego prawdopodobieństwa o dużych wymiarach, który jest następnie stosowany w metodzie numerycznej. Nie rozumiem, jak ML naprawdę poprawia MCMC w tym przypadku.
źródło
Było kilka najnowszych prac w dziedzinie fizyki obliczeniowej, w których autorzy wykorzystali Ograniczone Maszyny Boltzmanna do modelowania rozkładu prawdopodobieństwa, a następnie zaproponowali (miejmy nadzieję) wydajne aktualizacje Monte Carlo arXiv: 1610.02746 . Pomysł tutaj okazuje się dość podobny do odniesień podanych przez @lacerbi w powyższym.
W kolejnej próbie 1702.08586 autor wyraźnie skonstruował Maszyny Boltzmanna, które mogą wykonywać (a nawet odkrywać) znane aktualizacje klastrów Monte Carlo .
źródło