Czy metody oparte na MCMC są odpowiednie, gdy dostępne jest oszacowanie Maximum a-posteriori?

13

Zauważyłem, że w wielu praktycznych zastosowaniach, metody oparte na MCMC są używane do oszacowania parametru, nawet jeśli a posterior jest analityczny (na przykład ponieważ priory były sprzężone). Dla mnie bardziej sensowne jest stosowanie estymatorów MAP niż estymatorów opartych na MCMC. Czy ktoś mógłby wskazać, dlaczego MCMC jest nadal odpowiednią metodą w obecności analitycznego a posteriora?

bayesian mcmc posterior Holograficzny
źródło

2

Czy możesz podać przykład tego w praktyce? Zauważ, że istnieje różnica w stosunku do wcześniejszego koniugatu i warunkowego . W wielu aplikacjach Gibbsa wybrane priorytety są warunkowo sprzężone, ale sam przeor nie jest sprzężony; na przykład rozważmy ukrytą alokację Dirichleta.

facet

4

Nie jest jasne, co MAP ma z tym wspólnego. Estymator Bayesa to średnia tylna, a nie tryb tylny. Nawet gdy priory nie są sprzężone, często można przeprowadzić optymalizację, aby uzyskać estymator MAP - STAN robi to mniej więcej wcześniej. Celem MCMC jest oszacowanie rozkładu tylnego, który ma znacznie więcej informacji niż tylko estymator MAP.

facet

12

W tym przypadku nie trzeba używać MCMC: Markov Chain Monte-Carlo (MCMC) to metoda używana do generowania wartości z rozkładu. Daje łańcuch Markowa automatycznie skorelowanych wartości z rozkładem stacjonarnym równym rozkładowi docelowemu. Ta metoda będzie nadal działać, aby uzyskać to, czego chcesz, nawet w przypadkach, gdy rozkład docelowy ma postać analityczną. Istnieją jednak prostsze i mniej wymagające obliczeniowo metody, które sprawdzają się w takich przypadkach, w których masz do czynienia z a posteriorą o ładnej formie analitycznej.

W przypadku, gdy rozkład tylny ma dostępną postać analityczną, możliwe jest uzyskanie oszacowań parametrów (np. MAP) poprzez optymalizację z tego rozkładu przy użyciu standardowych technik rachunku różniczkowego. Jeśli rozkład docelowy jest wystarczająco prosty, możesz uzyskać rozwiązanie w postaci zamkniętej dla estymatora parametrów, ale nawet jeśli tak nie jest, zwykle możesz użyć prostych technik iteracyjnych (np. Newton-Raphson, opadanie gradientu itp.), Aby znaleźć optymalizacja oszacowania parametru dla dowolnych danych wejściowych. Jeśli masz postać analityczną dla funkcji kwantylowej rozkładu docelowego i musisz wygenerować wartości z rozkładu, możesz to zrobić za pomocą próbkowania z transformacją odwrotną, który jest mniej wymagający obliczeniowo niż MCMC, i pozwala generować wartości IID zamiast wartości ze złożonymi wzorami autokorelacji.

W związku z tym, jeśli programujesz od zera, nie wydaje się, aby istniał żaden powód, aby użyć MCMC w przypadku, gdy rozkład docelowy ma dostępną formę analityczną. Jedynym powodem, dla którego możesz to zrobić, jest to, że masz już napisany ogólny algorytm dla MCMC, który można wdrożyć przy minimalnym wysiłku, a Ty decydujesz, że wysiłek w wykonaniu wymaganej matematyki przeważa nad wydajnością korzystania z formy analitycznej. W niektórych praktycznych sytuacjach będziesz mieć do czynienia z problemami, które są na ogół trudne do rozwiązania, gdzie algorytmy MCMC są już skonfigurowane i można je wdrożyć przy minimalnym wysiłku (np. Jeśli przeprowadzasz analizę danych wRStan). W takich przypadkach może być łatwiejsze uruchomienie istniejących metod MCMC niż uzyskiwanie analitycznych rozwiązań problemów, chociaż te ostatnie można oczywiście wykorzystać jako kontrolę pracy.

Ben - Przywróć Monikę
źródło

10

Nie jest dla mnie jasne, co nazywasz analitycznym a posterior a zatem dlaczego ta analityczność powinna wykluczać korzystanie z MCMC. Nawet dla tylnej dystrybucji, która jest dostępna w formie zamkniętej, w tym jej stałej normalizującej, co rozumiem w tym kontekście analitycznym , nie ma powodu, aby szacunki Bayesa były dostępne w formie zamkniętej, jako rozwiązanie problemu minimalizacji when silnie zależy od funkcji utraty. $\pi(\theta)$

min_{δ} \int_{Θ} L (θ, δ) \tilde{π} (θ) f (x | θ) d θ

$\min_\delta\int_\Theta \text{L}(\theta,\delta)\,\tilde\pi(\theta)\,f(x|\theta)\,\text{d}\theta$

\tilde{π} (\cdot) \propto π (\cdot)

$\tilde\pi(\cdot)\propto\pi(\cdot)$

Gdy normalizująca stała nie jest dostępna,

\int \tilde{π} (θ) d θ

$\int \tilde\pi(\theta)\,\text{d}\theta$ znalezienie tylnej średniej lub mediany lub nawet trybu [który nie wymaga znajomości stałej], najczęściej przebiega dalej za pomocą algorytmu MCMC. Na przykład, jeśli otrzymam gęstość połączenia , gdy , inspirowany kopuły Ali-Mikhail-Haq : może być odpowiednio znormalizowane (i w rzeczywistości), lecz uzależnione oczekiwanie z podano podstawie tej gęstości, kiedy

x, y \in (0, 1)

$x,y\in(0,1)$

f_{θ} (x, y) = \frac{1 + θ [(1 + x) (1 + y) - 3] + θ^{2} (1 - x) (1 - y))}{[1 - θ (1 - x) (1 - y)]^{3}} θ \in (- 1, 1)

$f_\theta(x,y)=\dfrac{1+\theta[(1+x)(1+y)-3]+\theta^2(1-x)(1-y)) }{[1-\theta(1-x)(1-y)]^3}\qquad\theta\in(-1,1)$

Φ^{- 1} (X)

$\Phi^{-1}(X)$

Y = y

$Y=y$

Φ (.)

$\Phi(.)$ jest normalnym cdf, nie jest dostępny w formie zamkniętej. Jest to jednak kwestia podstawowa .

Należy również zauważyć, że maksymalny estymator a posteriori nie jest najbardziej naturalnym estymatorem w otoczeniu Bayesa, ponieważ nie odpowiada funkcji straty, a reprezentacja gęstości w postaci zamkniętej, nawet do stałej, nie powoduje znalezienia MAP z konieczności łatwe. Lub używając odpowiedniego MAP.

Xi'an
źródło

2

Kiedy czytam, to pytanie zadaje dwa nieco ortogonalne pytania. Jednym z nich jest użycie estymatorów MAP w stosunku do tylnych środków, a drugim jest to, czy należy MCMC, jeśli tylny ma postać analityczną.

W odniesieniu do estymatorów MAP w stosunku do środków tylnych, z teoretycznego punktu widzenia, środki tylne są ogólnie preferowane, jak zauważa @Xian w swojej odpowiedzi. Prawdziwą zaletą estymatorów MAP jest to, że szczególnie w bardziej typowym przypadku, gdy tylny nie jest w formie zamkniętej, można je obliczyć znacznie szybciej (tj. O kilka rzędów wielkości) niż oszacowanie średniej tylnej. Jeśli tył jest w przybliżeniu symetryczny (co często ma miejsce w wielu problemach z dużymi rozmiarami próby), wówczas oszacowanie MAP powinno być bardzo zbliżone do średniej tylnej. Tak więc atrakcyjność MAP polega na tym, że może to być bardzo tanie przybliżenie średniej tylnej.

Zauważ, że znajomość stałej normalizującej nie pomaga nam znaleźć trybu tylnego, więc posiadanie rozwiązania formy zamkniętej dla tylnego technicznie nie pomaga nam znaleźć oszacowania MAP, poza przypadkiem, w którym rozpoznajemy tylny jako specyficzny rozkład, dla którego wiemy, że to tryb.

W odniesieniu do drugiego pytania, jeśli ktoś ma zamkniętą formę rozkładu tylnego, ogólnie mówiąc, nie ma powodu, aby używać algorytmów MCMC. Teoretycznie, jeśli miałeś rozwiązanie postaci zamkniętej dla rozkładu tylnego, ale nie posiadałeś postaci zamkniętej dla średniej funkcji i nie mogłeś pobierać rysunków bezpośrednio z tego rozkładu postaci zamkniętej, wówczas możesz zwrócić się do algorytmów MCMC. Ale nie znam żadnych przypadków tej sytuacji.

Cliff AB
źródło

1

Twierdziłbym, że metody MCMC niekoniecznie są nieodpowiednie , nawet jeśli istnieją rozwiązania w formie zamkniętej. Oczywiście miło jest, gdy istnieje rozwiązanie analityczne: są one zwykle szybkie, unikasz obaw o zbieżność (itp.).

Z drugiej strony spójność jest również ważna. Przejście z techniki na technikę komplikuje prezentację: w najlepszym przypadku są to obce szczegóły, które mogą dezorientować lub odwracać uwagę odbiorców od merytorycznego wyniku, aw najgorszym przypadku może to wyglądać jak próba promowania wyników. Gdybym miał kilka modeli, z których tylko kilka dopuszcza rozwiązania w formie zamkniętej, zdecydowanie rozważyłbym ich uruchomienie przez ten sam potok MCMC, nawet jeśli nie byłoby to absolutnie konieczne.

Podejrzewam, że to plus bezwładność („mamy ten skrypt, który działa”) odpowiada za większość tego, co widzisz.

Matt Krause
źródło

Czy metody oparte na MCMC są odpowiednie, gdy dostępne jest oszacowanie Maximum a-posteriori?

Odpowiedzi: