W jaki sposób niewłaściwe uprzednie postępowanie może prowadzić do prawidłowej dystrybucji tylnej?

22

Wiemy, że w przypadku właściwej wcześniejszej dystrybucji

P.(θX)=P.(Xθ)P.(θ)P.(X)

P.(Xθ)P.(θ) .

Zwykle uzasadnieniem tego kroku jest to, że rozkład krańcowy , jest stały w odniesieniu do a zatem można go zignorować przy wyprowadzaniu rozkładu tylnego.P ( X ) θXP.(X)θ

Jednak w przypadku niewłaściwego przeora, skąd wiesz, że rozkład tylny rzeczywiście istnieje? Wydaje się, że czegoś brakuje w tym pozornie okrągłym argumencie. Innymi słowy, jeśli założę, że istnieje a posterior, rozumiem mechanikę tego, jak wyprowadzić a posteriora, ale wydaje mi się, że brakuje mi teoretycznego uzasadnienia, dlaczego w ogóle istnieje.

PS Zdaję sobie również sprawę z tego, że zdarzają się przypadki, w których niewłaściwa uprzednia prowadzi do niewłaściwej tylnej.

jsk
źródło

Odpowiedzi:

16

Zasadniczo akceptujemy osoby z niewłaściwych priorów π(θ) jeśli istnieje i jest prawidłowym rozkładem prawdopodobieństwa (tzn. integruje się dokładnie do 1 ponad podporą). Zasadniczo sprowadza się to doπ(X)=π(Xθ)π(θ)

π(Xθ)π(θ)π(X)
będąc skończonym. Jeśli tak jest, wówczas nazywamy tę ilość π ( θ X ) iakceptujemyją jako pożądany rozkład tylny. Należy jednak zauważyć, że NIE jest to rozkład późniejszy, ani nie jest to warunkowy rozkład prawdopodobieństwa (te dwa terminy są tutaj synonimami).π(X)=π(Xθ)π(θ)reθπ(θX)

Powiedziałem teraz, że akceptujemy „późniejsze” dystrybucje od niewłaściwych priorów, biorąc pod uwagę powyższe. Powodem, dla którego są akceptowane, jest to, że wcześniejsze nadal da nam względne „wyniki” w przestrzeni parametrów; tzn. stosunek π ( θ 1 )π(θ) nadaje sens naszej analizie. Znaczenie, które otrzymujemy od niewłaściwych priorów, w niektórych przypadkach może nie być dostępne w odpowiednich priory. Jest to potencjalne uzasadnienie ich użycia. Zobacz odpowiedź Sergio, aby dokładniej zbadać praktyczną motywację do niewłaściwych priorytetów.π(θ1)π(θ2))

Warto zauważyć, że ta ilość ma również pożądane właściwości teoretyczne, Degroot i Schervish :π(θX)

Nieprawidłowe priory nie są prawdziwymi rozkładami prawdopodobieństwa, ale jeśli będziemy udawać, że są, obliczymy rozkłady tylne, które przybliżą tylne ściany, które uzyskalibyśmy, stosując właściwe sprzężone priory z ekstremalnymi wartościami wcześniejszych hiperparametrów.


źródło
Jestem zaskoczony kilkoma rzeczami w twojej odpowiedzi. Mówisz, że akceptujemy osoby boczne, jeśli powyższe jest skończone. Czy to oznacza, że ​​jeśli ta całka nie jest skończona, to późniejszy nie będzie skończony? Wydaje się również, że sugerujesz, że w tym przypadku używamy tylnej, ale to nie jest prawdziwa dystrybucja - prawda? czy nie ma przypadków, w których jest to prawdziwa dystrybucja? Co ma z tym wspólnego stosunek przełożonych? Nie widzę połączenia.
Ben Elizabeth Ward
@BenElizabethWard Jeśli istnieje, to całka π ( X ) musi istnieć (a zatem być skończona). Przeciwny jest również prawda: jeśli π ( X ) nie istnieje (jest nieskończony), to π ( θ X ) nie istnieje. Gdy istnieje i jest prawidłowym rozkładem prawdopodobieństwa, π ( θ X ) jest rozkładem prawdopodobieństwa. Nie jest to jednak rozkład a posteriori dla π ( θ ) z danym prawdopodobieństwem danychπ(θX)π(X)π(X)π(θX)π(θX)π(θ) . Późniejszy dla tego przeora nie istnieje. W naszej analizieakceptujemy π ( θ X ), ponieważ jest to przybliżenie. π(Xθ)π(θX)
1
@BenElizabethWard Współczynnik ten został użyty, aby wykazać, że przeor nadal zawiera użyteczne informacje, których możemy nie być w stanie załadować do właściwego przeora. Zmienię swoją odpowiedź, aby to uwzględnić.
2
@jsk nie jest rozkładem prawdopodobieństwa, ale definicja rozkładu tylnego wymaga, aby π ( θ ) była rozkładem prawdopodobieństwa, więc oszustwo nazywa π ( θ X ) rozkładem tylnym, gdy jest to rozkład prawdopodobieństwa. Degroot i Schervish mówią: „… obliczymy tylne rozkłady, które…”, na podstawie których zakładają, że zgodziliście się „udawać, że [niewłaściwi priory] są [właściwymi priors]”, jak to zostało wyrażone wcześniej w cytacie. π(θ)π(θ)π(θX)
1
Czy chcesz, aby twoja odpowiedź była kompletna i samodzielna, aby przyszli czytelnicy nie musieli czytać tej wymiany komentarzy, czy chcesz zaktualizować swoją odpowiedź?
jsk
9

Istnieje odpowiedź „teoretyczna” i „pragmatyczna”.

Z teoretycznego punktu widzenia, gdy przeor jest niewłaściwy, a posterior nie istnieje (no cóż, spójrz na odpowiedź Mateusza, aby uzyskać bardziej rozsądną wypowiedź), ale może być przybliżony przez formę ograniczającą.

Jeśli dane obejmują warunkowo tę samą próbkę z rozkładu Bernoulliego o parametrze , a θ ma rozkład beta o parametrach α i β , rozkład tylny θ jest rozkładem beta o parametrach α + s , β + n - s ( n obserwacje, s sukcesy), a jego średnia jest ( α + y ) / ( α + β + n )θθαβθα+s,β+nsns(α+s)/(α+β+n). Jeśli zastosujemy niewłaściwy (i nierzeczywisty) rozkład beta przed poprzednimi hipeparametrami i udajemy, że π ( θ ) θ - 1 ( 1 - θ ) - 1 , otrzymujemy odpowiednią tylną proporcjonalność do θ s - 1 ( 1 - θ ) n - s - 1 , tj. Pdf rozkładu beta z parametrami s oraz n - sα=β=0π(θ)θ1(1θ)1θs1(1θ)ns1snsz wyjątkiem stałego czynnika. Jest to forma graniczna tylnej części przed beta z parametrami i β 0 (Degroot i Schervish, przykład 7.3.13).α0β0

W normalnym modelu ze średnią , znaną wariancją σ 2 i N ( μ 0 , τ 2 0 ) wcześniejszym rozkładem dla θ , jeżeli poprzednia precyzja 1 / τ 2 0 jest niewielka w stosunku do precyzji danych, n / σ 2 , a następnie rozkład tylny jest w przybliżeniu tak, jakby τ 2 0 = : p ( θ x ) N ( θ ˉθσ2)N.(μ0,τ02))θ1/τ02)n/σ2)τ02)= tj. rozkład tylny jest w przybliżeniu taki, który wynikałby z założenia, żep(θ)jest proporcjonalne do stałej dlaθ(-,), rozkładu, który nie jest ściśle możliwy, ale postać ograniczająca z tyłu, gdyzbliża sięτ 2 0(Gelman i in., s. 52).

p(θx)N.(θx¯,σ2)/n)
p(θ)θ(-,)τ02)

Z „pragmatycznego” punktu widzenia gdy p ( x θ ) = 0 cokolwiek p ( θ ) , więc jeśli p ( x θ ) 0 in ( a , b ) , a następnie - p ( x θ ) p ( θp(xθ)p(θ)=0p(xθ)=0p(θ)p(xθ)0(za,b) . Niewłaściwe priorytety mogą być wykorzystane do reprezentowanialokalnegozachowania wcześniejszej dystrybucji w regionie, w którym prawdopodobieństwo jest znaczące, powiedzmy ( a , b ) . Zakładając, że w wystarczającym przybliżeniu, wcześniejsze następuje formy takie jak f ( x ) = k , x ( - , ) lub fp(xθ)p(θ)dθ=abp(xθ)p(θ)dθ(a,b)f(x)=k,x(,) tylko powyżej ( a , b ) , że odpowiednio obniża się do zera poza tym zakresem, upewniamy się, że rzeczywiście użyte priory są prawidłowe (Box i Tiao, s. 21 ). Więc jeśli wcześniejszy rozkład θ wynosi U ( - , ), ale ( a , b ) jest ograniczony, to tak, jakby θ U ( a ,f(x)=kx1,x(0,)(a,b)θU(,)(a,b) , tj. p ( x θ ) p ( θ ) = p ( x θ ) k p ( x θ ) . Na konkretny przykład dzieje się tak w przypadkuStana: jeśli dla parametru nie określono wcześniejszego parametru, domyślnie otrzymuje on jednolity przedtem jego podparcie i jest to traktowane jako pomnożenie prawdopodobieństwa przez stałą.θU(a,b)p(xθ)p(θ)=p(xθ)kp(xθ)

Sergio
źródło
Czy możesz powiedzieć więcej o tym, dlaczego nie istnieje z teoretycznego punktu widzenia?
jsk
Nie potrafiłem wyjaśnić lepiej niż Matthew w jego odpowiedzi i komentarzach.
Sergio
W części pragmatycznej czym jest y? Również w tej sekcji, czy niektóre z terminów powinny oznaczać prawdopodobieństwo p ( x θ ) ? p(θx)p(xθ)
jsk
Dzięki. Myślę, że może być jeszcze jeden błąd ... Piszecie , ale przeor nie może zależeć od x . Czy masz na myśli P ( θ ) = k θ - 1 ? P.(θ)=kx-1xP.(θ)=kθ-1
jsk
Dobrze! Ponownie napisałem te formuły, tak jak są w Box & Tiao. Próbowałem wybrać jednorodną notację (np. Gelman używa zamiast x , DeGroot używa ξ ( . ) Dla priorów i plakatów itp.), Ale skończyło się na nieładzie ... Dzięki! yxξ(.)
Sergio
2

Jednak w przypadku niewłaściwego przeora, skąd wiesz, że rozkład tylny rzeczywiście istnieje?

Tył może też nie być właściwy. Jeśli przeor jest niewłaściwy, a prawdopodobieństwo jest płaskie (ponieważ nie ma znaczących obserwacji), to a posterior jest równe przeorowi i jest również niewłaściwe.

Zwykle masz pewne spostrzeżenia i zwykle prawdopodobieństwo nie jest płaskie, więc tylna jest właściwa.

Neil G.
źródło