Hamiltonian Monte Carlo i dyskretne przestrzenie parametrów

13

Właśnie rozpoczął budowę modeli Stan ; aby zbudować znajomość narzędzia, pracuję nad niektórymi ćwiczeniami z analizy danych bayesowskich (wydanie 2). W Waterbuck wykonywania zakłada, że dane , z nieznany. Ponieważ Hamiltonian Monte Carlo nie zezwala na parametry dyskretne, zadeklarowałem jako rzeczywistą i zakodowałem rozkład dwumianowy o wartości rzeczywistej za pomocą funkcji.nbinomial(N,θ)(N,θ)N[72,)lbeta

Histogram wyników wygląda praktycznie identycznie z tym, co znalazłem, obliczając bezpośrednio tylną gęstość. Obawiam się jednak, że mogą istnieć subtelne powody, dla których ogólnie nie powinienem ufać tym wynikom; ponieważ wnioskowanie o wartości rzeczywistej na przypisuje dodatnie prawdopodobieństwo wartościom niecałkowitym, wiemy, że wartości te są niemożliwe, ponieważ w rzeczywistości ułamkowy kozioł wodny nie istnieje. Z drugiej strony wyniki wydają się być dobre, więc uproszczenie wydaje się nie mieć wpływu na wnioskowanie w tym przypadku.N

Czy istnieją jakieś podstawowe zasady lub reguły dotyczące modelowania w ten sposób, czy też ta metoda „promowania” dyskretnego parametru do naprawdę złej praktyki?

Sycorax mówi Przywróć Monikę
źródło
3
W rzeczywistości dzieje się tak przez cały czas, gdy wartość parametru dyskretnego jest „duża”, a rozkład rozsądnych wartości, które może przyjąć, jest również „duży” (ale być może inny „duży”, „duży” nie jest dobrze -definiowane.) Widoczne jest to częściej podczas przybliżania zmiennych dyskretnych („część ludzi, którzy będą głosować na kandydata X”, która jest pobierana ze zbioru skończonego) za pomocą zmiennych ciągłych. Wydaje mi się, że z to mogą również w zakresie, dla którego ciągłe zbliżanie jest w porządku, chyba jest blisko 0 lub . N72NθN
jbowman
Świetnie, to całkowicie ma sens. Wygląda na to, że zasadniczo takie same zastrzeżenia są w porządku, jak w przypadku testu Z proporcji dla pobliżu 0 lub 1.θ^
Sycorax mówi Przywróć Monikę

Odpowiedzi:

18

Po pierwsze, możesz zadawać podobne pytania na liście naszych użytkowników ( http://mc-stan.org/mailing-lists.html ), gdzie omawiamy nie tylko kwestie związane z wdrożeniami / optymalizacjami / itp. Stanu, ale także praktyczne statystyki i pytania modelujące.

Jeśli chodzi o twoje pytanie, jest to absolutnie dobre podejście. Istnieje wiele sposobów na bardziej rygorystyczne uzasadnienie (na przykład patrząc na rozbieżność między dyskretnym CDF a jego ciągłym przybliżeniem), ale w zasadzie, o ile wariancja jest większa niż kilkukrotna jedność, brakująca dyskretyzacja tak naprawdę nie będzie miała żadnego wpływ na kolejne wnioski.

Tego rodzaju aproksymacja jest wszechobecna, częstym przykładem jest aproksymacja rozkładu wielomianowego jako iloczynu niezależnych rozkładów Poissona, które są następnie aproksymowane jako rozkłady Gaussa.

Michael Betancourt
źródło
9
Ten moment, kiedy rok później, zdajesz sobie sprawę, że Michael Betancourt wysłana odpowiedź na swoje pytanie ...
Sycorax mówi dozbrojenie Monica