Jaka jest różnica między próbkowaniem Metropolis Hastings, Gibbs, Znaczenie i odrzuceniem?

36

Próbowałem nauczyć się metod MCMC i natknąłem się na próbkowanie Metropolis Hastings, Gibbs, Ważność i Odrzucenie. Chociaż niektóre z tych różnic są oczywiste, tj. Jak Gibbs jest szczególnym przypadkiem Metropolis Hastings, gdy mamy pełne warunki warunkowe, inne są mniej oczywiste, na przykład gdy chcemy użyć MH w próbniku Gibbs itp. Czy ktoś ma prosty sposób, aby zobaczyć większość różnic między nimi? Dzięki!

użytkownik1398057
źródło
3
Iain Murray ładnie odnosi się do tego w swoim wykładzie , przynajmniej w odniesieniu do MCMC.
gwr
2
Zgadzam się z Xi'anem, że jest to bardzo szerokie pytanie; skutecznie pytasz o szereg informacji na temat czterech różnych rzeczy, a dyskusja na temat jednej z nich (lub kontrast między parą z nich) byłaby dość długotrwałą odpowiedzią. Możemy być w stanie skupić się na tym, zauważając, że chociaż wszystkie cztery są metodami Monte Carlo, ważne próbkowanie i próbkowanie odrzucone nie są MCMC (to nie znaczy, że nie można ich użyć w MCMC).
Glen_b

Odpowiedzi:

47

Jak wyszczególniono w naszej książce z George Casella, Monte Carlo metod statystycznych , metody te są stosowane do próbek produktów z danej dystrybucji, o gęstości powiedzenia, albo aby zorientować się na temat tej dystrybucji, lub do rozwiązania integracji i optymalizacji problemu związanego z f . Na przykład, aby znaleźć wartość X h ( x ) f ( x ) d xff lub tryb rozkładu h ( X ), gdy X f ( x ) lub kwantyl tego rozkładu.

Xh(x)f(x)dxh(X)R
h(X)Xf(x)

Aby porównać łańcuch Monte Carlo i Markowa metody Monte Carlo, o których wspominasz w odpowiednich kryteriach, wymagają ustalenia tła problemu i celów eksperymentu symulacyjnego, ponieważ zalety i wady każdego z nich będą się różnić w zależności od przypadku.

Oto kilka ogólnych uwag, które z pewnością nie obejmują złożoności problemu :

  1. Metody akceptowania -odrzucania mają na celu dostarczenie próbki iid z . Aby to osiągnąć, projektuje się algorytm, który przyjmuje jako dane wejściowe losową liczbę wartości zmiennych u 1 , u 2 , i zwraca wartość x, która jest realizacją z f . Do zalet jest to, że brak jest przybliżenie w metodzie: wynik jest naprawdę iid próbka z f . Te zalety są liczne: (i) zaprojektować algorytm znajdując obwiednię ffu1,u2,xfffktóre mogą być generowane mogą być bardzo kosztowne w czasie ludzkim; (ii) algorytm może być nieefektywny w obliczaniu czasu, tj. wymaga wielu mundurów do wytworzenia pojedynczego ; (iii) tych występów zmniejsza się z wymiarem X . Krótko mówiąc, takich metod nie można użyć do symulacji jednej lub kilku symulacji zf, chyba że są one już dostępne w języku komputerowym takim jak R.xXf
  2. Metody Monte Carlo (MCMC) w łańcuchu Markowa są rozszerzeniem metod symulacji iid, gdy symulacja iid jest zbyt kosztowna. Wytwarzają sekwencję symulacji których ograniczeniem jest rozkład f . Te zalety są takie, że (i) do informacji o f jest potrzebne do realizacji sposobu; (ii) f może być znane tylko do stałej normalizującej lub nawet jako całka f ( x ) Z ˜ f ( x , z ) d z(xt)tfff
    f(x)Zf~(x,z)dz
    i nadal są powiązane z metodą MCMC; (iii) istnieją ogólne algorytmy MCMC do tworzenia symulacji które wymagają bardzo małej kalibracji; (iv) wymiar nie stanowi większego problemu, ponieważ cele o dużych wymiarach można podzielić na warunki warunkowe o mniejszych wymiarach (jak w próbkowaniu Gibbsa). Te zalety są takie, że: (i) symulacje ( x T ) T są skorelowane, a tym samym mniej informacji niż IID symulacji; (ii) walidacja metody jest tylko asymptotyczna, dlatego istnieje przybliżenie, biorąc pod uwagę x t dla stałej t jako realizacji f ; (iii) konwergencja z(xt)t(xt)txttf ( wt ) może być tak wolny, że dla wszystkich praktycznych celówalgorytm nie jest zbieżny; (iv) uniwersalna walidacja metody oznacza, że ​​istnieje nieskończona liczba potencjalnych wdrożeń, przy równie nieskończonym zakresie wydajności.ft
  3. Metody pobierania próbek o znaczeniu istotnym są pierwotnie zaprojektowane dla przybliżonych przybliżeń, a mianowicie generowania ze złego celu i kompensowania przez wagę istotności f ( x ) / g ( x )g(x)
    f(x)/g(x).
    gfg minusygf

I=Xh(x)f(x)dx,
I^=Xh(x)f(x)dx
f
Xi'an
źródło
f
Właśnie zastanawiałem się, co h(x)konkretnie oznacza h(x)f(x)dx, w scenariuszu analizy bayesowskiej. Staramy się uzyskać tył, biorąc pod uwagę wcześniejsze i dane. Wydaje się jednak, że przy tych wszystkich metodach próbkowania faktycznie próbujemy to przybliżyć f(x). Czy można więc powiedzieć, że f(x)jest to pozycja tylna, której szukamy, i h(x)jest to tylko arbitralna funkcja, którą moglibyśmy również połączyć z częścią tylną f(x)? Czy nie zrozumiałem tego poprawnie? Dzięki.
Xji
Xh(x)f(x)dx
fh