MCMC; Czy możemy być pewni, że mamy „czystą” i „wystarczająco dużą” próbkę z tyłu? Jak to może działać, jeśli nie jesteśmy?

12

Odnosząc się do tego wątku: Jak wyjaśniłbyś Markov Chain Monte Carlo (MCMC) laikowi? .

Widzę, że jest to kombinacja Łańcuchów Markowa i Monte Carlo: łańcuch Markowa jest tworzony z tylnym jako niezmienny ograniczający rozkład, a następnie rysuje Monte Carlo (zależne) z rozkładu ograniczającego (= nasz tylny).

Powiedzmy (wiem, że tutaj upraszczam), że po krokach jesteśmy na granicy dystrybucji (*).ΠLΠ

Łańcuch Markowa jest sekwencją losowych zmiennych, otrzymuję sekwencję , gdzie jest zmienną losową, a jest ograniczeniem „ „zmienna losowa”, z której chcemy próbkować. X i ΠX1,X2,,XL,Π,Π,Π,ΠXiΠ

MCMC zaczyna się od wartości początkowej, tj. jest zmienną losową o całej masie przy tej jednej wartości . Jeśli użyję wielkich liter dla zmiennych losowych i małych liter do realizacji zmiennej losowej, wówczas MCMC daje mi sekwencję . Zatem długość łańcucha MCMC wynosi L + n.x 1 x 1 , x 2 , x 3 , ... x L , π 1 , π 2 , π 3 , . . . . π nX1x1x1,x2,x3,xL,π1,π2,π3,....πn

[[* Uwaga: wielkie litery to zmienne losowe (tj. Cała wiązka wyników), a małe to wyniki, tj. Jedna konkretna wartość. *]]x

Oczywiście tylko należą do mojego „tylnego” i dla przybliżenia tylnej „studni” wartość powinna być „wystarczająco duża”. nπin

Jeśli to podsumuję, to mam łańcuch MCMC o długości , tylko są istotne dla mojego tylnego przybliżenia, a powinno być wystarczająco duże. N = L + n π 1 , π 2 , , π n nx1,x2,x3,xL,π1,π2,π3,....πnN.=L.+nπ1,π2),,πnn

Jeśli uwzględnię część (tj. Realizacji przed osiągnięciem niezmiennego rozkładu) w obliczeniach aproksymacji tylnej części ciała, to będzie to „hałaśliwe”.xja

Znam długość łańcucha MCMC , ale bez znajomości , tj. Etapu, w którym jestem pewien, że próbkuję z ograniczającego rozkładu, nie mogę być pewien, że nie uwzględniłem hałasu, ani nie mogę bądź pewien, że , wielkość mojej próbki z ograniczającego rozkładu, w szczególności nie mogę być pewien, czy jest ona „wystarczająco duża”. L n = N - LN.=L.+nL.n=N.-L.

Tak więc, o ile rozumiem, ta wartość ma decydujące znaczenie dla jakości aproksymacji tylnej (wykluczenie hałasu i dużej próbki z niego)L. .

Czy są jakieś sposoby na znalezienie rozsądnego oszacowania dla kiedy aplikuję MCMC?L.

(*) Myślę, że ogólnie będzie zależeć od wartości początkowej .x 1L.x1

Społeczność
źródło

Odpowiedzi:

6

TL DR; Nie można oszacować ponieważ . Tak więc założenie upraszczające nigdy nie jest naprawdę możliwe. (Być może są tam przypadki, ale nie w ogólnym świecie MCMC). Możesz jednak zdecydować, co sprawi, że wczesne odchylenie będzie małe.L = NL.L=N


Zasadniczo twoje pytanie sprowadza się do „jak możemy oszacować czas wypalania?”. Wypalenie polega na wyrzuceniu początkowych próbek, ponieważ łańcuch Markowa się nie zbliżył. Istnieje wiele metod diagnostycznych MCMC, które pomagają oszacować czas „wypalenia”, możesz zobaczyć ich recenzję tutaj .

Istnieją dwie szkoły w zakresie wypalenia; popularnym jest użycie jednej z tych metod diagnostycznych, aby zdecydować, co to jest , i wyrzucić próbki , a dzięki drugiej szkole pierwsze próbki nie powinny mieć znaczenia, więc nie martw się o nie. Charlie Geyer narzeka na to, z czym się zgadzam.L LLLL

Teraz przechodzę do bardziej technicznych szczegółów twojego pytania.

Uproszczone założenie przyjęte w pytaniu jest takie, że w końcu (po krokach) próbnik zacznie rysować z ograniczającego rozkładu. Więc twoje próbki po krokach są czystymi losowaniami, choć skorelowanymi. To nieprawda. Ściśle mówiąc, jest . Łańcuch Markowa nigdy tak naprawdę nie zbiega się do ograniczającego rozkładu w ograniczonym czasie. Zatem oszacowanie jest prawie bezcelowe.L L LLLLL

Innym sposobem postawienia tego pytania jest: czym jest tak, że po krokach łańcuch Markowa jest „wystarczająco blisko” do ograniczającego rozkładu. To pytanie, na które większość diagnostów próbuje odpowiedzieć. Coraz częściej uznaje się, że powyższa diagnostyka jest na ogół niezwykle liberalna i może zdiagnozować „zbieżność” znacznie wcześniej, niż powinna. Oto artykuł, który pokazuje niektóre słabości diagnostyki.LLL

Co powyższym prosi użytkownicy zamiast robić to nie martw się o , martwić się o . Zasadniczo użytkownicy nie są zainteresowani pełnym rozkładem bocznym, ale określoną ilością. Często ta ilość jest średnią z funkcji tylnej lub jakiejkolwiek innej funkcji, którą można zapisać jako oczekiwanie. Tutaj pojawia się część MCMC „Monte Carlo”, ponieważ Monte Carlo wskazuje na oszacowanie całki z sumowaniem. Więc jeśli jest twoim łańcuchem Markowa (zauważ, jak , ponieważ jest ), a my chcemy oszacować średnią tylną ( ), a następnie N X 1 , X 2 , X 3 , , X N L L θ ˉ θ N = 1LNX1,X2,X3,,XNLLθ

θ¯N=1Ni=1NXi.

Chodzi o to, że jeśli jest wystarczająco duży, to początkowe odchylenie próbki będzie nieznaczne. Oczywiście, jeśli wartość początkowa była żałośnie oddalona od przestrzeni wysokiego prawdopodobieństwa rozkładu granicznego, użytkownik może spojrzeć w oczy i wyrzucić pierwszą parę próbek. Różni się to od oszacowania , ponieważ nie jest to oszacowanie, ale wykształcone lekceważenie wyraźnie zepsutych próbek.L.NL

Teraz pytanie oczywiście brzmi: jak duże powinno być ? Odpowiedź powinna zależeć od tego, jak dobrze chcemy oszacować . Jeśli chcemy mieć dobre oszacowanie, potrzebujemy więcej próbek, jeśli wystarczające jest prawidłowe oszacowanie, może być w porządku z mniejszą próbką. Tak właśnie dzieje się w przypadku standardowych problemów statystycznych.θNθ

Sposób, w jaki oceniamy „dobroć” oszacowania, polega na myśleniu: „co możemy powiedzieć o , błędzie Monte Carlo? W rozsądnych warunkach istnieje łańcuch Markowa CLT, który mówi jako , dla każdej początkowej dystrybucjiN (θ¯Nθ)N

N(θ¯Nθ)dNp(0,Σ),

gdzie a jest asymptotyczną macierzą kowariancji. Kluczem tutaj jest to, że wynik jest prawdziwy dla każdej początkowej dystrybucji.θRpΣ

Kiedy jest mała, wiemy, że estymator jest dobry. Ten artykuł przedstawia ideę zatrzymania, a moja odpowiedź tutaj streszcza ich metodę. Wyniki w ich pracy są również niezależne od początkowej dystrybucji procesu.Σ/N

Greenparker
źródło
Dzięki za odpowiedź (+1) Wiem, że powinno być , wyraźnie powiedziałem, że upraszczam. Jeśli chodzi o twój CLT, czy nie powinien to być dla konwergencji w dystrybucji? a dla , czy oblicza się to po upuszczeniu wartości wypalenia, ponieważ jeśli jest po upuszczeniu ich, to problem pozostaje? (czy mogę zapytać, co oznacza TL DR?) Dzięki za artykuł, przeczytałem go szczegółowoLΣ/nθ^N
Usunięto typo powinno być . jest obliczany ze wszystkich próbek, nic nie jest . TL DR oznacza „za długo, nie czytałem”. Zapomniałem dodać, że CLT obowiązuje dla każdej początkowej dystrybucji. Dodam to. Σ/N.θ¯N.
Greenparker,
Mam jeszcze jedno pytanie: w artykule Flegal, Haran i Jones, MCMC: czy możemy wcisnąć trzecią znaczącą liczbę , poniżej wzoru (3), która mówi, że zakłada się, że . Czy to oznacza, że ​​powinienem wziąć pod uwagę wypalenie przy szacowaniu ? X1πg¯n
@fcop Ta linia ma jedynie opisywać oczekiwania. Nie zakłada się, że , ale oczekiwania dotyczą formuły . X1ππ
Greenparker,