Biorę udział w kursie Wprowadzenie do Bayesa i mam trudności ze zrozumieniem rozkładów predykcyjnych. Rozumiem, dlaczego są przydatne i znam definicję, ale są pewne rzeczy, których nie do końca rozumiem.
1) Jak uzyskać właściwy rozkład predykcyjny dla wektora nowych obserwacji
Załóżmy, że zbudowaliśmy model próbkowania dla danych i wcześniejszego . Zakładamy, że obserwacje są warunkowo niezależne podano .
Zaobserwowaliśmy pewne dane i aktualizujemy nasze poprzednie do tylnego .
Gdybyśmy chcieli przewidzieć wektor nowych obserwacji , I myślę, że powinniśmy spróbować uzyskać przewidywanie z tyłu za pomocą tej formuły co nie jest równe więc przewidywane obserwacje nie są niezależne, prawda?
Powiedz, że Beta ( ) i Dwumianowy ( ) dla stałej . W takim przypadku, jeśli chciałbym zasymulować 6 nowych , jeśli dobrze to rozumiem, błędem byłoby symulowanie 6 losowań niezależnie od rozkładu Beta-Dwumianowego, który odpowiada predykcji tylnej dla pojedynczej obserwacji. Czy to jest poprawne? Nie wiem, jak interpretować, że obserwacje nie są marginalnie niezależne i nie jestem pewien, czy dobrze to rozumiem.
Symulowanie z późniejszych predykcji
Wiele razy, gdy symulujemy dane z predykcji tylnej, stosujemy ten schemat:
Dla od 1 do :
1) Próbka z .
2) Następnie symuluj nowe dane z .
Nie bardzo wiem, jak udowodnić, że ten schemat działa, choć wygląda intuicyjnie. Czy to też ma nazwę? Próbowałem znaleźć uzasadnienie i wypróbowałem różne nazwiska, ale nie miałem szczęścia.
Dzięki!
źródło
Odpowiedzi:
Przypuszczam, żeX1,…,Xn,Xn+1 są pod tym względem niezależne warunkowo Θ=θ . Następnie,
Schemat symulacji jest poprawny: dlai=1,…,N , remis θ(i) z dystrybucji Θ∣X1=x1,…,Xn=xn , wtedy Rysuj x(i)n+1 z dystrybucji Xn+1∣Θ=θ(i) . To daje próbkę{x(i)n+1}Ni=1 z dystrybucji Xn+1∣X1=x1,…,Xn=xn .
źródło
Spróbuję omówić krok po kroku intuicję generowania tylnej dystrybucji predykcyjnej.
Pozwolićy być wektorem obserwowanych danych pochodzących z rozkładu prawdopodobieństwa p(y|θ) i pozwól y~ być wektorem przyszłych (lub nieobjętych próbą) wartości, które chcemy przewidzieć. Zakładamy toy~ pochodzi z tej samej dystrybucji co y . Kuszące może być skorzystanie z naszych najlepszych szacunkówθ --- takie jak oszacowanie MLE lub MAP --- w celu uzyskania informacji o tym rozkładzie. Takie postępowanie nieuchronnie zignorowałoby jednak naszą niepewnośćθ . Zatem właściwym sposobem postępowania jest uśrednienie w stosunku do rozkładu tylnegoθ , mianowicie p(θ|y) . Zauważ też, żey~ jest niezależny od y dany θ , ponieważ zakłada się, że jest to niezależna próbka pobrana z tego samego rozkładu co y . A zatem,
Rozkład predykcyjny z tyłuy~ jest zatem
gdzieΘ jest wsparciem θ .
Teraz, w jaki sposób otrzymujemy próbkip(y~|y) ? Metodę, którą opisujesz, nazywa się czasem metodą kompozycji , która działa w następujący sposób:
dla s = 1,2, ..., S do
remisθ(s) od p(θ|y)
remisy~(s) od p(y~|θ(s))
gdzie w większości sytuacji mamy już remisyp(θ|y) , tak że wymagany jest tylko drugi krok.
Powód, dla którego to działa, jest dość prosty: po pierwsze, że top(y~,θ|y)=p(y~|θ,y)p(θ|y) . Zatem próbkowanie wektora parametruθ(s) od p(θ|y) a następnie za pomocą tego wektora do próbkowania y~(s) od p(y~|θ(s))=p(y~|θ(s),y) daje próbki ze wspólnego rozkładu p(y~,θ|y) . Wynika z tego, że próbkowane wartościy~(s),s=1,2,...,S są próbkami z rozkładu krańcowego, p(y~|y) .
źródło
Aby odpowiedzieć na twoje pierwsze pytanie: tak, obserwacje nie są niezależne, jeśli nie znasz wartościθ . Powiedz, że to zauważyłeśy~1 ma raczej ekstremalną wartość. Może to wskazywać, że nieznana wartośćθ samo w sobie jest ekstremalne, dlatego też należy oczekiwać, że inne obserwacje również będą ekstremalne.
źródło