Przykłady błędów w algorytmach MCMC

28

Badam metodę automatycznego sprawdzania metod Monte Carlo w łańcuchu Markowa i chciałbym podać kilka przykładów błędów, które mogą wystąpić podczas konstruowania lub wdrażania takich algorytmów. Punkty bonusowe, jeśli w opublikowanym artykule użyto niewłaściwej metody.

Szczególnie interesują mnie przypadki, w których błąd oznacza, że ​​łańcuch ma niepoprawny rozkład niezmienniczy, chociaż inne rodzaje błędów (np. Łańcuch nie ergodyczny) również byłyby interesujące.

Przykładem takiego błędu może być brak wyprowadzenia wartości, gdy Metropolis-Hastings odrzuci proponowany ruch.

Simon Byrne
źródło
7
Jednym z moich ulubionych przykładów jest estymator średniej harmonicznej, ponieważ ma ładne właściwości asymptotyczne, ale nie działa w praktyce. Radford Neal omawia to na swoim blogu: „Zła wiadomość jest taka, że ​​liczba punktów wymaganych do tego, aby ten estymator zbliżył się do właściwej odpowiedzi, często jest większa niż liczba atomów w obserwowalnym wszechświecie”. Ta metoda została szeroko zaimplementowana w aplikacjach.
3
Kolejna dzięki uprzejmości prof. Neala.
Cyan
5
@Cyan Aby Neal był traktowany poważnie Myślę, że powinien był znaleźć czasopismo, które akceptuje jego artykuł, a nie tylko przesyła go w Internecie. Mogę z łatwością uwierzyć, że ma rację, a recenzenci i autor są niepoprawni. Chociaż trudno jest opublikować artykuły sprzeczne z opublikowanymi wynikami, a odrzucenie JASA zniechęca, myślę, że powinien był wypróbować kilka innych czasopism, dopóki nie odniesie sukcesu. Potrzebujesz częściowego i niezależnego sędziego, aby dodać wiarygodności swoim ustaleniom.
Michael R. Chernick,
4
Zawsze należy poważnie traktować prof. Neala! ; o) Poważnie szkoda, że ​​takie wyniki są trudne do opublikowania, a niestety współczesna kultura akademicka wydaje się nie doceniać tego rodzaju rzeczy, więc jest zrozumiałe, że nie jest to dla niego działalność o wysokim priorytecie. Ciekawe pytanie, jestem bardzo zainteresowany odpowiedziami.
Dikran Marsupial
6
@Michael: Być może. Po wielu stronach podobnych sytuacji, w tym w pozycji profesora Neala, moje anegdotyczne spostrzeżenia są takie, że odrzucenie papieru niesie w większości przypadków bardzo, bardzo mało treści informacyjnych, podobnie jak wiele akceptacji. Wzajemna ocena to rzędy wielkości bardziej hałaśliwe, niż ludzie chcą przyznać, i często, jak to bywa w tym przypadku, istnieją częściowe i zainteresowane (tj. Nie niezależne) partie i interesy. To powiedziawszy, nie zamierzałem, aby mój oryginalny komentarz zabrał nas do tej pory na ten temat. dziękuję za podzielenie się przemyśleniami na ten temat.
kardynał

Odpowiedzi:

11

1. Marginal Prawdopodobieństwo i estymator średniej harmonicznej

Marginalny prawdopodobieństwo jest definiowana jako stałej normalizacji rozkładu a posteriori

p(x)=Θp(x|θ)p(θ)dθ.

Znaczenie tej ilości wynika z roli, jaką odgrywa ona w porównywaniu modeli za pomocą czynników Bayesa .

Zaproponowano kilka metod przybliżania tej ilości. Raftery i in. (2007) proponują estymator średniej harmonicznej , który szybko stał się popularny ze względu na swoją prostotę. Pomysł polega na wykorzystaniu relacji

1p(x)=Θp(θ|x)p(x|θ)reθ.

W związku z tym, jeśli mamy próbki z tylnej, powiedzmy , ilość ta może być aproksymowane(θ1,...,θN.)

1p(x)1N.jot=1N.1p(x|θjot).

To przybliżenie jest powiązane z koncepcją próbkowania ważności .

Zgodnie z prawem wielkich liczb, jak omówiono na blogu Neala , mamy, że ten estymator jest spójny . Problem polega na tym, że wymagana dla dobrego przybliżenia może być ogromna. Zobacz kilka przykładów na blogu Neala lub blogu Roberta 1 , 2 , 3 , 4 .N.

Alternatywy

Istnieje wiele alternatyw dla przybliżenia . Chopin i Robert (2008) przedstawiają niektóre metody oparte na próbkowaniu.p(x)

2. Nie działa wystarczająco długo sampler MCMC (szczególnie w przypadku multimodalności)

Mendoza i Gutierrez-Peña (1999) wydedukowali referencję przed / za dla stosunku dwóch normalnych średnich i przedstawiają przykład wnioskowania uzyskanego z tym modelem przy użyciu prawdziwego zestawu danych. Stosując metody MCMC, uzyskują próbkę o wielkości tylnej proporcji średnich φ, co pokazano poniżej2000φ

wprowadź opis zdjęcia tutaj

φ (0,63,5.29)00

wprowadź opis zdjęcia tutaj

(0,7.25)

3. Niektóre inne kwestie, takie jak ocena zbieżności, wybór wartości początkowych, złe zachowanie łańcucha, można znaleźć w tej dyskusji Gelman, Carlin i Neal.

4. Ważność próbkowania

sol

ja=fa(x)rex=fa(x)sol(x)sol(x)rex.

sol(x1,...,xN.)ja

ja1N.jot=1N.fa(xjot)sol(xjot).

solfaN.

# Integrating a Student's t with 1 d.f. using a normal importance function   
x1 = rnorm(10000000)   # N=10,000,000
mean(dt(x1,df=1)/dnorm(x1))

# Now using a Student's t with 2 d.f. function
x2 = rt(1000,df=2)
mean(dt(x2,df=1)/dt(x2,df=2))

źródło
2
To są świetne przykłady. Dla każdego, kto jest zainteresowany, list do redakcji z rysunkiem znajduje się tutaj: onlinelibrary.wiley.com/doi/10.1002/bimj.200800256/abstract
Simon Byrne
2
Bardzo ładne i jasne podsumowanie !! (+1)
gui11aume
12

Darren Wilkinson na swoim blogu podaje szczegółowy przykład częstego błędu w przypadkowym spacerze Metropolis-Hastings. Polecam przeczytanie go w całości, ale tutaj jest wersja tl; dr.

Jeśli rozkład docelowy jest dodatni (jak rozkłady gamma itp. ) W jednym wymiarze, kuszące jest odrzucenie propozycji, które mają ujemną wartość w tym wymiarze. Błędem jest odrzucenie propozycji, które nigdy się nie wydarzyły, i ocena stosunku akceptacji Metropolis-Hastings (MH) tylko dla innych. Jest to błąd, ponieważ sprowadza się do użycia niesymetrycznej gęstości propozycji.

Autor sugeruje zastosowanie jednej z dwóch poprawek.

  1. Policz „negatywy” jako brak akceptacji (i stracić trochę wydajności).

  2. W takim przypadku użyj właściwego współczynnika MH

π(x)π(x)Φ(x)Φ(x),

πΦϕ Φ(x)=0ϕ(y-x)rey

gui11aume
źródło
1
+1 Interesujący przykład. Myślałem również o innych problemach z MH związanych ze współczynnikiem akceptacji. Myślę, że optymalna stawka 0,234 została nadużyta.
@ Procrastinator bardzo dobrze znasz literaturę MCMC. Czy to twoja dziedzina wiedzy?
gui11aume
Dzięki za komentarz. Lubię statystyki bayesowskie, potem muszę nosić krzyż MCMC;).
1

Bardzo wyraźny przypadek (związany z przybliżeniem marginalnego prawdopodobieństwa wspomnianym w pierwszej odpowiedzi), w którym prawdziwa zbieżność jest przykładem problemu zmiany etykiety w modelach mieszanin w połączeniu z estymatorem Chiba (1995) . Jak wskazał Radford Neal (1999), jeśli łańcuch MCMC nie zbiega się prawidłowo, w tym sensie, że bada niektóre tryby rozkładu celu, przybliżenie Chib w Monte Carlo nie osiąga właściwej wartości liczbowej.

Xi'an
źródło