Kiedy MCMC jest przydatne?

12

Mam problem ze zrozumieniem, w której sytuacji podejście MCMC jest rzeczywiście przydatne. Przechodzę przez zabawkowy przykład z książki Kruschke „Doing Bayesian Data Analysis: A Tutorial with R and BUGS”.

Do tej pory rozumiałem, że potrzebujemy rozkładu docelowego, który jest proporcjonalny do p(D|θ)p(θ) , aby otrzymać próbkę P(θ|D) . Wydaje mi się jednak, że gdy mamy p(D|θ)p(θ) musimy tylko znormalizować rozkład, aby uzyskać tył, a współczynnik normalizacji można łatwo znaleźć numerycznie. Więc jakie są przypadki, gdy nie jest to możliwe?

Vaaal
źródło
2
Załóżmy, że θ nie jest skalarem, ale zamiast tego jest to wektor θ mający 10000 wymiarów.
Jan Galkowski
1
Moja odpowiedź była krótka. Aby uzyskać stałą, musisz obliczyć p(D|θ)p(θ) . Nawet w przypadku skalarnym załóżmy, że p(D|θ) jest naprawdę chwiejny, więc integracja jest trudna do wykonania, nawet liczbowo. Następnie możesz użyć MCMC.
Jan Galkowski
2
Słowo ostrzeżenia Alana Sokala: „Monte Carlo to bardzo zła metoda; należy jej używać tylko wtedy, gdy wszystkie metody alternatywne są najgorsze”. Następnie rozpoczyna długą dyskusję na temat metod MC. stat.unc.edu/faculty/cji/Sokal.pdf
Yair Daon
1
@Yair: Wydaje mi się, że Sokal kieruje Churchilla.
kardynał
1
Gdy nic więcej nie zadziała ...
kjetil b halvorsen

Odpowiedzi:

10

Integracja Monte Carlo jest jedną z form integracji numerycznej, która może być znacznie wydajniejsza niż np. Całkowanie numeryczne poprzez zbliżenie całki do wielomianów. Jest to szczególnie prawdziwe w przypadku dużych wymiarów, gdzie proste techniki integracji numerycznej wymagają dużej liczby ocen funkcji. Aby obliczyć stałą normalizacji , moglibyśmy użyć próbkowania ważności ,p(D)

p(D)=q(θ)q(θ)p(θ)p(Dθ)dθ1Nnwnp(θn)p(Dθn),

gdzie i są próbkowane z . Zauważ, że musimy ocenić rozkład połączeń tylko w próbkowanych punktach. W przypadku właściwego ten estymator może być bardzo wydajny, ponieważ wymaga bardzo niewielu próbek. W praktyce wybór odpowiedniego może być trudny, ale tutaj MCMC może pomóc! Wyżarzone próbkowanie według ważności (Neal, 1998) łączy MCMC z próbkowaniem według ważności.wn=1/q(θn)θnqqq

Innym powodem, dla którego MCMC jest przydatny, jest to, że zwykle nie jesteśmy nawet zainteresowani tylną gęstością , ale raczej zbiorczymi statystykami i oczekiwaniami , np.θ

p(θD)f(θ)dθ.

Znajomość zasadniczo nie oznacza, że ​​możemy rozwiązać tę całkę, ale próbki są bardzo wygodnym sposobem jej oszacowania.p(D)

Wreszcie, możliwość oceny jest wymagana dla niektórych metod MCMC, ale nie wszystkich (np. Murray i in., 2006 ).p(Dθ)p(θ)

Lucas
źródło
Przepraszam, ale nadal nie jest to dla mnie jasne. Moje pytanie brzmi: jeśli pomnożymy , otrzymamy nienormalizowany plik pdf. Uruchamiając MCMC, otrzymujemy próbkę, dla której możemy oszacować nienormalizowany plik pdf. Jeśli chcemy, możemy znormalizować oba. ZAKŁADAJĄC, ŻE NIE jestem zainteresowany żadnymi statystykami podsumowującymi, a jedynie danymi pobocznymi, dlaczego w ogóle używamy MCMC? Jak powiedziałeś, niektóre metody MCMC nie wymagają obliczeń , więc nie odnoszę się do nich. O ile mi wiadomo, większość z nich wymaga obliczenia tego. Jaka jest przydatność tych metod? p(D|θ)p(θ)p(D|θ)p(θ)
Vaaal,
2
Podczas uruchamiania MCMC otrzymujesz próbkę ze znormalizowanego pliku pdf, więc unikaj obliczania stałej normalizacyjnej. A to za darmo.
Xi'an
2
@ Vaaal: Twoje założenie, że „współczynnik normalizacji można łatwo znaleźć numerycznie” odnosi się tylko do prostych rozkładów jednowymiarowych. W przypadku wysokich wymiarów normalizacja jest na ogół niezwykle trudna. W takim przypadku MCMC można nadal wykorzystać do oszacowania stałej normalizacyjnej (np. Poprzez próbkowanie o wyższym znaczeniu). θp(Dθ)p(θ)
Lucas,
6

Gdy otrzymujesz wcześniejsze i prawdopodobieństwo , które albo nie są obliczalne w formie zamkniętej, albo takie, że rozkład tylny nie jest standardowego typu, symulowanie bezpośrednio z tego celu w kierunku przybliżenia Monte Carlo rozkładu tylnego jest niemożliwe. Typowym przykładem są modele hierarchiczne z nieskoniugowanymi priory, takie jak te znalezione w książce BŁĘDY .p(θ)f(x|θ)

p(θ|x)p(θ)f(x|θ)

Pośrednie metody symulacji, takie jak akceptacja-odrzucenie, stosunek jednolitości lub techniki próbkowania według ważności zwykle spotykają się z trudnościami numerycznymi i precyzyjnymi, gdy wymiar parametru wzrasta powyżej kilku jednostek.θ

Przeciwnie, metody Monte Carlo w łańcuchu Markowa są łatwiejsze do dużych wymiarów, ponieważ mogą one badać rozkład tylny na poziomie lokalnym, tj. W sąsiedztwie bieżącej wartości, i na mniejszej liczbie składników, tj. Na podprzestrzeni. Na przykład, próbnik Gibbsa potwierdza pogląd, że symulacja z jednowymiarowego celu naraz, a mianowicie pełne rozkłady warunkowe powiązane z , jest wystarczająca do uzyskania symulacji z prawdziwego tylnego odcinka w dłuższej perspektywie.p(θ|x)

Metody Markova z łańcuchem Monte Carlo mają również pewien stopień uniwersalności w tym, że algorytmy takie jak algorytm Metropolis-Hastings są formalnie dostępne dla każdego rozkładu który można obliczyć do stałej.p(θ|x)

W przypadkach, gdy nie można łatwo obliczyć , istnieją alternatywne rozwiązania, albo przez uzupełnienie tej dystrybucji w zarządzalny rozkład na większej przestrzeni, jak w lub metodami niemarkowskimi, takimi jak ABC .p(θ)f(x|θ)

p(θ)f(x|θ)g(z|θ,x)p(θ)f(x|θ)dz

Metody MCMC dały znacznie szerszy zasięg dla metod bayesowskich, co ilustruje wzrost, który nastąpił po popularyzacji metody przez Alana Gelfanda i Adriana Smitha w 1990 roku.

Xi'an
źródło
Link do KSIĄŻKI BŁĘDÓW już nie działa.
HelloWorld,