Zrozumienie rozkładów predykcyjnych bayesowskich

9

Biorę udział w kursie Wprowadzenie do Bayesa i mam trudności ze zrozumieniem rozkładów predykcyjnych. Rozumiem, dlaczego są przydatne i znam definicję, ale są pewne rzeczy, których nie do końca rozumiem.

1) Jak uzyskać właściwy rozkład predykcyjny dla wektora nowych obserwacji

Załóżmy, że zbudowaliśmy model próbkowania dla danych i wcześniejszego . Zakładamy, że obserwacje są warunkowo niezależne podano .p(yi|θ)p(θ)yiθ

Zaobserwowaliśmy pewne dane i aktualizujemy nasze poprzednie do tylnego .D={y1,y2,...,yk}p(θ)p(θ|D)

Gdybyśmy chcieli przewidzieć wektor nowych obserwacji , I myślę, że powinniśmy spróbować uzyskać przewidywanie z tyłu za pomocą tej formuły co nie jest równe więc przewidywane obserwacje nie są niezależne, prawda?N={y~1,y~2,...,y~n}

p(N|D)=p(θ|D)p(N|θ)dθ=p(θ|D)i=1np(y~i|θ)dθ,
i=1np(θ|D)p(y~i|θ)dθ,

Powiedz, że Beta ( ) i Dwumianowy ( ) dla stałej . W takim przypadku, jeśli chciałbym zasymulować 6 nowych , jeśli dobrze to rozumiem, błędem byłoby symulowanie 6 losowań niezależnie od rozkładu Beta-Dwumianowego, który odpowiada predykcji tylnej dla pojedynczej obserwacji. Czy to jest poprawne? Nie wiem, jak interpretować, że obserwacje nie są marginalnie niezależne i nie jestem pewien, czy dobrze to rozumiem.θ|Da,bp(yi|θ)n,θny~

Symulowanie z późniejszych predykcji

Wiele razy, gdy symulujemy dane z predykcji tylnej, stosujemy ten schemat:

Dla od 1 do :bB

1) Próbka z .θ(b)p(θ|D)

2) Następnie symuluj nowe dane z .N(b)p(N|θ(b))

Nie bardzo wiem, jak udowodnić, że ten schemat działa, choć wygląda intuicyjnie. Czy to też ma nazwę? Próbowałem znaleźć uzasadnienie i wypróbowałem różne nazwiska, ale nie miałem szczęścia.

Dzięki!

Fred L.
źródło
Zadałem podobne pytanie na stronie stats.stackexchange.com/questions/72570/…, ale wygląda na to, że do tej pory otrzymałeś więcej głosów.
Jan

Odpowiedzi:

4

Przypuszczam, że X1,,Xn,Xn+1 są pod tym względem niezależne warunkowo Θ=θ. Następnie,

fXn+1X1,,Xn(xn+1x1,,xn)=fXn+1,ΘX1,,Xn(xn+1,θx1,,xn)dθ
=fXn+1Θ,X1,,Xn(xn+1θ,x1,,xn)fΘX1,,Xn(θx1,,xn)dθ
=fXn+1Θ(xn+1θ)fΘX1,,Xn(θx1,,xn)dθ,
w którym pierwsza równość wynika z prawa całkowitego prawdopodobieństwa, druga wynika z reguły iloczynu, a trzecia z założonej niezależności warunkowej: biorąc pod uwagę wartość Θ, nie potrzebujemy wartości X1,,Xn określić rozkład Xn+1.

Schemat symulacji jest poprawny: dla i=1,,N, remis θ(i) z dystrybucji ΘX1=x1,,Xn=xn, wtedy Rysuj xn+1(i) z dystrybucji Xn+1Θ=θ(i). To daje próbkę{xn+1(i)}i=1N z dystrybucji Xn+1X1=x1,,Xn=xn.

Zen
źródło
Co powiesz na to, że przewidujesz późniejszą prognozę na wiele okresów? Używałemθ(i) dla każdego xn+j, ale rozumiem, dlaczego warto przerysować nową theta.
John
2

Spróbuję omówić krok po kroku intuicję generowania tylnej dystrybucji predykcyjnej.

Pozwolić y być wektorem obserwowanych danych pochodzących z rozkładu prawdopodobieństwa p(y|θ) i pozwól y~być wektorem przyszłych (lub nieobjętych próbą) wartości, które chcemy przewidzieć. Zakładamy toy~ pochodzi z tej samej dystrybucji co y. Kuszące może być skorzystanie z naszych najlepszych szacunkówθ--- takie jak oszacowanie MLE lub MAP --- w celu uzyskania informacji o tym rozkładzie. Takie postępowanie nieuchronnie zignorowałoby jednak naszą niepewnośćθ. Zatem właściwym sposobem postępowania jest uśrednienie w stosunku do rozkładu tylnegoθ, mianowicie p(θ|y). Zauważ też, żey~ jest niezależny od y dany θ, ponieważ zakłada się, że jest to niezależna próbka pobrana z tego samego rozkładu co y. A zatem,

p(y~|θ,y)=p(y~,y|θ)p(θ)p(θ,y)=p(y~|θ)p(y|θ)p(θ)p(y|θ)p(θ)=p(y~|θ).

Rozkład predykcyjny z tyłu y~ jest zatem

p(y~|y)=Θp(y~|θ,y)p(θ|y)dθ=Θp(y~|θ)p(θ|y)dθ

gdzie Θ jest wsparciem θ.

Teraz, w jaki sposób otrzymujemy próbki p(y~|y)? Metodę, którą opisujesz, nazywa się czasem metodą kompozycji , która działa w następujący sposób:


dla s = 1,2, ..., S do

remis θ(s) od p(θ|y)

remis y~(s) od p(y~|θ(s))


gdzie w większości sytuacji mamy już remisy p(θ|y), tak że wymagany jest tylko drugi krok.

Powód, dla którego to działa, jest dość prosty: po pierwsze, że to p(y~,θ|y)=p(y~|θ,y)p(θ|y). Zatem próbkowanie wektora parametruθ(s) od p(θ|y) a następnie za pomocą tego wektora do próbkowania y~(s) od p(y~|θ(s))=p(y~|θ(s),y) daje próbki ze wspólnego rozkładu p(y~,θ|y). Wynika z tego, że próbkowane wartościy~(s),s=1,2,...,S są próbkami z rozkładu krańcowego, p(y~|y).

baruuum
źródło
1

Aby odpowiedzieć na twoje pierwsze pytanie: tak, obserwacje nie są niezależne, jeśli nie znasz wartości θ. Powiedz, że to zauważyłeśy~1ma raczej ekstremalną wartość. Może to wskazywać, że nieznana wartośćθ samo w sobie jest ekstremalne, dlatego też należy oczekiwać, że inne obserwacje również będą ekstremalne.

hr0nix
źródło