W jaki sposób niewłaściwe uprzednie postępowanie może prowadzić do prawidłowej dystrybucji tylnej?
22
Wiemy, że w przypadku właściwej wcześniejszej dystrybucji
P(θ∣X)=P(X∣θ)P(θ)P(X)
∝P(X∣θ)P(θ) .
Zwykle uzasadnieniem tego kroku jest to, że rozkład krańcowy , jest stały w odniesieniu do a zatem można go zignorować przy wyprowadzaniu rozkładu tylnego.P ( X ) θXP(X)θ
Jednak w przypadku niewłaściwego przeora, skąd wiesz, że rozkład tylny rzeczywiście istnieje? Wydaje się, że czegoś brakuje w tym pozornie okrągłym argumencie. Innymi słowy, jeśli założę, że istnieje a posterior, rozumiem mechanikę tego, jak wyprowadzić a posteriora, ale wydaje mi się, że brakuje mi teoretycznego uzasadnienia, dlaczego w ogóle istnieje.
PS Zdaję sobie również sprawę z tego, że zdarzają się przypadki, w których niewłaściwa uprzednia prowadzi do niewłaściwej tylnej.
Zasadniczo akceptujemy osoby z niewłaściwych priorów π(θ) jeśli
istnieje i jest prawidłowym rozkładem prawdopodobieństwa (tzn. integruje się dokładnie do 1 ponad podporą). Zasadniczo sprowadza się to doπ(X)=∫π(X∣θ)π(θ)
π(X∣θ)π(θ)π(X)
będąc skończonym. Jeśli tak jest, wówczas nazywamy tę ilość π ( θ ∣ X ) iakceptujemyją jako pożądany rozkład tylny. Należy jednak zauważyć, że NIE jest to rozkład późniejszy, ani nie jest to warunkowy rozkład prawdopodobieństwa (te dwa terminy są tutaj synonimami).π(X)=∫π(X∣θ)π(θ)dθπ(θ∣X)
Powiedziałem teraz, że akceptujemy „późniejsze” dystrybucje od niewłaściwych priorów, biorąc pod uwagę powyższe. Powodem, dla którego są akceptowane, jest to, że wcześniejsze nadal da nam względne „wyniki” w przestrzeni parametrów; tzn. stosunek π ( θ 1 )π( θ ) nadaje sens naszej analizie. Znaczenie, które otrzymujemy od niewłaściwych priorów, w niektórych przypadkach może nie być dostępne w odpowiednich priory. Jest to potencjalne uzasadnienie ich użycia. Zobacz odpowiedź Sergio, aby dokładniej zbadać praktyczną motywację do niewłaściwych priorytetów.π( θ1)π( θ2))
Warto zauważyć, że ta ilość ma również pożądane właściwości teoretyczne, Degroot i Schervish :π( θ ∣ X)
Nieprawidłowe priory nie są prawdziwymi rozkładami prawdopodobieństwa, ale jeśli będziemy udawać, że są, obliczymy rozkłady tylne, które przybliżą tylne ściany, które uzyskalibyśmy, stosując właściwe sprzężone priory z ekstremalnymi wartościami wcześniejszych hiperparametrów.
Jestem zaskoczony kilkoma rzeczami w twojej odpowiedzi. Mówisz, że akceptujemy osoby boczne, jeśli powyższe jest skończone. Czy to oznacza, że jeśli ta całka nie jest skończona, to późniejszy nie będzie skończony? Wydaje się również, że sugerujesz, że w tym przypadku używamy tylnej, ale to nie jest prawdziwa dystrybucja - prawda? czy nie ma przypadków, w których jest to prawdziwa dystrybucja? Co ma z tym wspólnego stosunek przełożonych? Nie widzę połączenia.
Ben Elizabeth Ward
@BenElizabethWard Jeśli istnieje, to całka π ( X ) musi istnieć (a zatem być skończona). Przeciwny jest również prawda: jeśli π ( X ) nie istnieje (jest nieskończony), to π ( θ ∣ X ) nie istnieje. Gdy istnieje i jest prawidłowym rozkładem prawdopodobieństwa, π ( θ ∣ X ) jest rozkładem prawdopodobieństwa. Nie jest to jednak rozkład a posteriori dla π ( θ ) z danym prawdopodobieństwem danychπ( θ ∣ X)π( X)π( X)π( θ ∣ X)π( θ ∣ X)π( θ ) . Późniejszy dla tego przeora nie istnieje. W naszej analizieakceptujemy π ( θ ∣ X ), ponieważ jest to przybliżenie. π( X∣ θ )π( θ ∣ X)
1
@BenElizabethWard Współczynnik ten został użyty, aby wykazać, że przeor nadal zawiera użyteczne informacje, których możemy nie być w stanie załadować do właściwego przeora. Zmienię swoją odpowiedź, aby to uwzględnić.
2
@jsk nie jest rozkładem prawdopodobieństwa, ale definicja rozkładu tylnego wymaga, aby π ( θ ) była rozkładem prawdopodobieństwa, więc oszustwo nazywa π ( θ ∣ X ) rozkładem tylnym, gdy jest to rozkład prawdopodobieństwa. Degroot i Schervish mówią: „… obliczymy tylne rozkłady, które…”, na podstawie których zakładają, że zgodziliście się „udawać, że [niewłaściwi priory] są [właściwymi priors]”, jak to zostało wyrażone wcześniej w cytacie. π( θ )π( θ )π( θ ∣ X)
1
Czy chcesz, aby twoja odpowiedź była kompletna i samodzielna, aby przyszli czytelnicy nie musieli czytać tej wymiany komentarzy, czy chcesz zaktualizować swoją odpowiedź?
jsk
9
Istnieje odpowiedź „teoretyczna” i „pragmatyczna”.
Z teoretycznego punktu widzenia, gdy przeor jest niewłaściwy, a posterior nie istnieje (no cóż, spójrz na odpowiedź Mateusza, aby uzyskać bardziej rozsądną wypowiedź), ale może być przybliżony przez formę ograniczającą.
Jeśli dane obejmują warunkowo tę samą próbkę z rozkładu Bernoulliego o parametrze , a θ ma rozkład beta o parametrach α i β , rozkład tylny θ jest rozkładem beta o parametrach α + s , β + n - s ( n obserwacje, s sukcesy), a jego średnia jest ( α + y ) / ( α + β + n )θθαβθα + s , β+ n - sns( α + s ) / ( α + β+ n ). Jeśli zastosujemy niewłaściwy (i nierzeczywisty) rozkład beta przed poprzednimi hipeparametrami i udajemy, że π ( θ ) ∝ θ - 1 ( 1 - θ ) - 1 , otrzymujemy odpowiednią tylną proporcjonalność do θ s - 1 ( 1 - θ ) n - s - 1 , tj. Pdf rozkładu beta z parametrami s oraz n - sα = β= 0π( θ ) ∝ θ- 1( 1 - θ )- 1θs - 1( 1 - θ )n - s - 1sn - sz wyjątkiem stałego czynnika. Jest to forma graniczna tylnej części przed beta z parametrami i β → 0 (Degroot i Schervish, przykład 7.3.13).α → 0β→ 0
W normalnym modelu ze średnią , znaną wariancją σ 2 i N ( μ 0 , τ 2 0 ) wcześniejszym rozkładem dla θ , jeżeli poprzednia precyzja 1 / τ 2 0 jest niewielka w stosunku do precyzji danych, n / σ 2 , a następnie rozkład tylny jest w przybliżeniu tak, jakby τ 2 0 = ∞ :
p ( θ ∣ x ) ≈ N ( θ ∣ ˉθσ2)N.( μ0, τ2)0)θ1 / τ2)0n / σ2)τ2)0= ∞
tj. rozkład tylny jest w przybliżeniu taki, który wynikałby z założenia, żep(θ)jest proporcjonalne do stałej dlaθ∈(-∞,∞), rozkładu, który nie jest ściśle możliwy, ale postać ograniczająca z tyłu, gdyzbliża sięτ 2 0 ∞(Gelman i in., s. 52).
p ( θ ∣ x ) ≈ N( θ ∣ x¯, σ2)/ n)
p ( θ )θ ∈ ( - ∞ , ∞ )τ2)0∞
Z „pragmatycznego” punktu widzenia gdy
p ( x ∣ θ ) = 0 cokolwiek p ( θ ) , więc jeśli p ( x ∣ θ ) ≠ 0 in
( a , b ) , a następnie ∫ ∞ - ∞ p ( x ∣ θ ) p ( θp ( x ∣ θ ) p ( θ ) = 0p ( x ∣ θ ) = 0p ( θ )p ( x ∣ θ ) ≠ 0( a , b ) . Niewłaściwe priorytety mogą być wykorzystane do reprezentowanialokalnegozachowania wcześniejszej dystrybucji w regionie, w którym prawdopodobieństwo jest znaczące, powiedzmy ( a , b ) . Zakładając, że w wystarczającym przybliżeniu, wcześniejsze następuje formy takie jak f ( x ) = k , x ∈ ( - ∞ , ∞ ) lub f∫∞- ∞p(x∣θ)p(θ)dθ=∫bap(x∣θ)p(θ)dθ(a,b)f(x)=k,x∈(−∞,∞) tylko powyżej ( a , b ) , że odpowiednio obniża się do zera poza tym zakresem, upewniamy się, że rzeczywiście użyte priory są prawidłowe (Box i Tiao, s. 21 ). Więc jeśli wcześniejszy rozkład θ wynosi U ( - ∞ , ∞ ), ale
( a , b ) jest ograniczony, to tak, jakby θ ∼ U ( a ,f(x)=kx−1,x∈(0,∞)(a,b)θU(−∞,∞)(a,b) , tj. p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ ) . Na konkretny przykład dzieje się tak w przypadkuStana: jeśli dla parametru nie określono wcześniejszego parametru, domyślnie otrzymuje on jednolity przedtem jego podparcie i jest to traktowane jako pomnożenie prawdopodobieństwa przez stałą.θ∼U(a,b)p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )
Czy możesz powiedzieć więcej o tym, dlaczego nie istnieje z teoretycznego punktu widzenia?
jsk
Nie potrafiłem wyjaśnić lepiej niż Matthew w jego odpowiedzi i komentarzach.
Sergio
W części pragmatycznej czym jest y? Również w tej sekcji, czy niektóre z terminów powinny oznaczać prawdopodobieństwo p ( x ∣ θ ) ? p ( θ ∣ x )p ( x ∣ θ )
jsk
Dzięki. Myślę, że może być jeszcze jeden błąd ... Piszecie , ale przeor nie może zależeć od x . Czy masz na myśli P ( θ ) = k θ - 1 ? P.( θ ) = k x- 1xP.( θ ) = k θ- 1
jsk
Dobrze! Ponownie napisałem te formuły, tak jak są w Box & Tiao. Próbowałem wybrać jednorodną notację (np. Gelman używa zamiast x , DeGroot używa ξ ( . ) Dla priorów i plakatów itp.), Ale skończyło się na nieładzie ... Dzięki! yxξ( . )
Sergio
2
Jednak w przypadku niewłaściwego przeora, skąd wiesz, że rozkład tylny rzeczywiście istnieje?
Tył może też nie być właściwy. Jeśli przeor jest niewłaściwy, a prawdopodobieństwo jest płaskie (ponieważ nie ma znaczących obserwacji), to a posterior jest równe przeorowi i jest również niewłaściwe.
Zwykle masz pewne spostrzeżenia i zwykle prawdopodobieństwo nie jest płaskie, więc tylna jest właściwa.
Istnieje odpowiedź „teoretyczna” i „pragmatyczna”.
Z teoretycznego punktu widzenia, gdy przeor jest niewłaściwy, a posterior nie istnieje (no cóż, spójrz na odpowiedź Mateusza, aby uzyskać bardziej rozsądną wypowiedź), ale może być przybliżony przez formę ograniczającą.
Jeśli dane obejmują warunkowo tę samą próbkę z rozkładu Bernoulliego o parametrze , a θ ma rozkład beta o parametrach α i β , rozkład tylny θ jest rozkładem beta o parametrach α + s , β + n - s ( n obserwacje, s sukcesy), a jego średnia jest ( α + y ) / ( α + β + n )θ θ α β θ α + s , β+ n - s n s ( α + s ) / ( α + β+ n ) . Jeśli zastosujemy niewłaściwy (i nierzeczywisty) rozkład beta przed poprzednimi hipeparametrami i udajemy, że π ( θ ) ∝ θ - 1 ( 1 - θ ) - 1 , otrzymujemy odpowiednią tylną proporcjonalność do θ s - 1 ( 1 - θ ) n - s - 1 , tj. Pdf rozkładu beta z parametrami s oraz n - sα = β= 0 π( θ ) ∝ θ- 1( 1 - θ )- 1 θs - 1( 1 - θ )n - s - 1 s n - s z wyjątkiem stałego czynnika. Jest to forma graniczna tylnej części przed beta z parametrami i β → 0 (Degroot i Schervish, przykład 7.3.13).α → 0 β→ 0
W normalnym modelu ze średnią , znaną wariancją σ 2 i N ( μ 0 , τ 2 0 ) wcześniejszym rozkładem dla θ , jeżeli poprzednia precyzja 1 / τ 2 0 jest niewielka w stosunku do precyzji danych, n / σ 2 , a następnie rozkład tylny jest w przybliżeniu tak, jakby τ 2 0 = ∞ : p ( θ ∣ x ) ≈ N ( θ ∣ ˉθ σ2) N.( μ0, τ2)0) θ 1 / τ2)0 n / σ2) τ2)0= ∞
tj. rozkład tylny jest w przybliżeniu taki, który wynikałby z założenia, żep(θ)jest proporcjonalne do stałej dlaθ∈(-∞,∞), rozkładu, który nie jest ściśle możliwy, ale postać ograniczająca z tyłu, gdyzbliża sięτ 2 0 ∞(Gelman i in., s. 52).
Z „pragmatycznego” punktu widzenia gdy p ( x ∣ θ ) = 0 cokolwiek p ( θ ) , więc jeśli p ( x ∣ θ ) ≠ 0 in ( a , b ) , a następnie ∫ ∞ - ∞ p ( x ∣ θ ) p ( θp ( x ∣ θ ) p ( θ ) = 0 p ( x ∣ θ ) = 0 p ( θ ) p ( x ∣ θ ) ≠ 0 ( a , b ) . Niewłaściwe priorytety mogą być wykorzystane do reprezentowanialokalnegozachowania wcześniejszej dystrybucji w regionie, w którym prawdopodobieństwo jest znaczące, powiedzmy ( a , b ) . Zakładając, że w wystarczającym przybliżeniu, wcześniejsze następuje formy takie jak f ( x ) = k , x ∈ ( - ∞ , ∞ ) lub f∫∞- ∞p(x∣θ)p(θ)dθ=∫bap(x∣θ)p(θ)dθ (a,b) f(x)=k,x∈(−∞,∞) tylko powyżej ( a , b ) , że odpowiednio obniża się do zera poza tym zakresem, upewniamy się, że rzeczywiście użyte priory są prawidłowe (Box i Tiao, s. 21 ). Więc jeśli wcześniejszy rozkład θ wynosi U ( - ∞ , ∞ ), ale
( a , b ) jest ograniczony, to tak, jakby θ ∼ U ( a ,f(x)=kx−1,x∈(0,∞) (a,b) θ U(−∞,∞) (a,b) , tj. p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ ) . Na konkretny przykład dzieje się tak w przypadkuStana: jeśli dla parametru nie określono wcześniejszego parametru, domyślnie otrzymuje on jednolity przedtem jego podparcie i jest to traktowane jako pomnożenie prawdopodobieństwa przez stałą.θ∼U(a,b) p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )
źródło
Tył może też nie być właściwy. Jeśli przeor jest niewłaściwy, a prawdopodobieństwo jest płaskie (ponieważ nie ma znaczących obserwacji), to a posterior jest równe przeorowi i jest również niewłaściwe.
Zwykle masz pewne spostrzeżenia i zwykle prawdopodobieństwo nie jest płaskie, więc tylna jest właściwa.
źródło