Właśnie rozpoczął budowę modeli Stan ; aby zbudować znajomość narzędzia, pracuję nad niektórymi ćwiczeniami z analizy danych bayesowskich (wydanie 2). W Waterbuck wykonywania zakłada, że dane , z nieznany. Ponieważ Hamiltonian Monte Carlo nie zezwala na parametry dyskretne, zadeklarowałem jako rzeczywistą i zakodowałem rozkład dwumianowy o wartości rzeczywistej za pomocą funkcji.lbeta
Histogram wyników wygląda praktycznie identycznie z tym, co znalazłem, obliczając bezpośrednio tylną gęstość. Obawiam się jednak, że mogą istnieć subtelne powody, dla których ogólnie nie powinienem ufać tym wynikom; ponieważ wnioskowanie o wartości rzeczywistej na przypisuje dodatnie prawdopodobieństwo wartościom niecałkowitym, wiemy, że wartości te są niemożliwe, ponieważ w rzeczywistości ułamkowy kozioł wodny nie istnieje. Z drugiej strony wyniki wydają się być dobre, więc uproszczenie wydaje się nie mieć wpływu na wnioskowanie w tym przypadku.
Czy istnieją jakieś podstawowe zasady lub reguły dotyczące modelowania w ten sposób, czy też ta metoda „promowania” dyskretnego parametru do naprawdę złej praktyki?
źródło
Odpowiedzi:
Po pierwsze, możesz zadawać podobne pytania na liście naszych użytkowników ( http://mc-stan.org/mailing-lists.html ), gdzie omawiamy nie tylko kwestie związane z wdrożeniami / optymalizacjami / itp. Stanu, ale także praktyczne statystyki i pytania modelujące.
Jeśli chodzi o twoje pytanie, jest to absolutnie dobre podejście. Istnieje wiele sposobów na bardziej rygorystyczne uzasadnienie (na przykład patrząc na rozbieżność między dyskretnym CDF a jego ciągłym przybliżeniem), ale w zasadzie, o ile wariancja jest większa niż kilkukrotna jedność, brakująca dyskretyzacja tak naprawdę nie będzie miała żadnego wpływ na kolejne wnioski.
Tego rodzaju aproksymacja jest wszechobecna, częstym przykładem jest aproksymacja rozkładu wielomianowego jako iloczynu niezależnych rozkładów Poissona, które są następnie aproksymowane jako rozkłady Gaussa.
źródło