Prawdopodobieństwo vs rozkład warunkowy dla analizy bayesowskiej

13

Możemy zapisać twierdzenie Bayesa jako

p(θ|x)=fa(X|θ)p(θ)θfa(X|θ)p(θ)reθ

gdzie jest tylnym, jest rozkładem warunkowym, a jest wcześniejszym.f ( X | θ ) p ( θ )p(θ|x)fa(X|θ)p(θ)

lub

p(θ|x)=L.(θ|x)p(θ)θL.(θ|x)p(θ)reθ

gdzie jest tylnym, jest funkcją prawdopodobieństwa, a jest wcześniejszym.L ( θ | x ) p ( θ )p(θ|x)L.(θ|x)p(θ)

Moje pytanie brzmi

  1. Dlaczego analiza bayesowska jest wykonywana przy użyciu funkcji prawdopodobieństwa, a nie rozkładu warunkowego?
  2. Czy możesz powiedzieć słowami, jaka jest różnica między prawdopodobieństwem a rozkładem warunkowym? Wiem, że prawdopodobieństwo nie jest rozkładem prawdopodobieństwa i .L.(θ|x)fa(X|θ)
kzoo
źródło
1
Nie ma różnicy! Prawdopodobieństwo to rozkład warunkowy , cóż, jest proporcjonalny do, co się liczy. fa(X|θ)
kjetil b halvorsen
1
Poprzedni parametr ma gęstość . jeśli realizacja ma wartość podczas gdy jest obserwowaną wartością zmiennej losowej , wówczas wartość funkcji prawdopodobieństwa wynosi dokładnie , wartość warunkowego gęstości z . Różnica polega na tym, że dla wszystkich realizacji . Jednak w funkcjip Θ ( θ ) Θ θ x X L ( θ x ) f ( x θ ) f X Θ ( x Θ = θ ) X - f X Θ ( x Θ = θ ) d x = 1 Θ θ x L ( θ xΘpΘ(θ)ΘθxXL.(θx) fa(xθ)faXΘ(xΘ=θ)X
-faXΘ(xΘ=θ)rex=1
Θθ(i stałe ), jest nie gęstość:x L ( θ x ) d θ 1L.(θx)
L.(θx)reθ1
Dilip Sarwate

Odpowiedzi:

11

Załóżmy, że masz zmiennych losowych (których wartości zostaną zaobserwowane w eksperymencie), które są warunkowo niezależne, biorąc pod uwagę, że Θ = θ , o gęstościach warunkowych f X iΘ (X1,,XnΘ=θ , dla i = 1 , , n . To jest twój (postulowany) model statystyczny (warunkowy), a gęstości warunkowe wyrażają, dla każdej możliwej wartości θ (losowego) parametru Θ , twoją niepewność co do wartości X i ,zanimbędziesz mieć dostęp do jakiejkolwiek rzeczywistej dane. Za pomocą gęstości warunkowych można na przykład obliczyć prawdopodobieństwa warunkowe, takie jak P { X 1B 1 , , X nB nfaXjaΘ(θ)ja=1,,nθΘXja dla każdego θ .

P.{X1b1,,XnbnΘ=θ}=b1××bnja=1nfaXjaΘ(xjaθ)rex1rexn,
θ

(x1,,xn)XjaX1,,XnΘΠ(x1,,xn)

L.x1,,xn:ΠR
L.x1,,xn(θ)=ja=1nfaXjaΘ(xjaθ).
L.x1,,xnθL.x1,,xnΘ(x1,,xn)L.x1,,xnΘ

Odpowiadając na twoje pytanie, aby zrozumieć różnice między pojęciami gęstości warunkowej i prawdopodobieństwa, pamiętaj o ich matematycznych definicjach (które są wyraźnie różne: są to różne obiekty matematyczne o różnych właściwościach), a także pamiętaj, że gęstość warunkowa jest „pre -sample ”obiekt / koncepcja, podczas gdy prawdopodobieństwo jest„ po próbce ”. Mam nadzieję, że wszystko to pomoże ci również odpowiedzieć na pytanie, dlaczego wnioskowanie bayesowskie (używając twojego sposobu wyrażenia, co nie uważam za idealne) odbywa się „przy użyciu funkcji prawdopodobieństwa, a nie rozkładu warunkowego”: celem wnioskowania bayesowskiego jest aby obliczyć rozkład tylny i aby tego dokonać, opieramy się na obserwowanych (znanych) danych.

Zen
źródło
Myślę, że Zen ma rację, gdy mówi, że prawdopodobieństwo i prawdopodobieństwo warunkowe są różne. W funkcji prawdopodobieństwa θ nie jest zmienną losową, dlatego różni się od prawdopodobieństwa warunkowego.
Martine
2

Proporcjonalność służy do uproszczenia analizy

fa(X|θ)

p(θ|x)L.x(θ)p(θ)L.x(θ)ja=1nfa(xja|θ).

θ

θ

X1,...,XnIID N(θ,1)x¯=1nja=1nxjax¯¯=1nja=1nxja2)

fa(x|θ)=ja=1nfa(xja|θ)=ja=1nN.(xja|θ,1)=ja=1n12)πexp(-12)(xja-θ)2))=(2)π)n/2)exp(-12)ja=1n(xja-θ)2)).=(2)π)n/2)exp(-n2)(θ2)-2)x¯θ+x¯¯))=(2)π)n/2)exp(-nx¯¯2))exp(-n2)(θ2)-2)x¯θ))

θ

L.x(θ)=exp(-n2)(θ2)-2)x¯θ)).

θθN.(0,λ0)λ0>0

p(θ|x)L.x(θ)p(θ)=exp(-n2)(θ2)-2)x¯θ))N.(θ|0,λ0)exp(-n2)(θ2)-2)x¯θ))exp(-λ02)θ2))=exp(-12)(nθ2)-2)nx¯θ+λ0θ2)))=exp(-12)((n+λ0)θ2)-2)nx¯θ))=exp(-n+λ02)(θ2)-2)nx¯n+λ0θ))exp(-n+λ02)(θ-nn+λ0x¯)2))N.(θ|nn+λ0x¯,n+λ0).

Na podstawie tej pracy widzimy, że rozkład tylny jest proporcjonalny do normalnej gęstości. Ponieważ tylna musi być gęstością, oznacza to, że tylna jest gęstością normalną:

p(θ|x)=N.(θ|nn+λ0x¯,n+λ0).

θ

mi(θ|x)=nn+λ0x¯V.(θ|x)=1n+λ0.

Teraz wyprowadzony przez nas rozkład tylny ma stałą całkowania z przodu (którą możemy łatwo znaleźć, patrząc na postać rozkładu normalnego ). Zauważ jednak, że nie musieliśmy się martwić o tę stałą multiplikatywną - wszystkie nasze działania usuwały (lub wprowadzały) multiplikatywne stałe, ilekroć upraszczało to matematykę. Ten sam wynik można uzyskać, śledząc multiplikatywne stałe, ale jest to znacznie bardziej chaotyczny.

Ben - Przywróć Monikę
źródło
0

ja

Ten problem pojawił się w innych pytaniach omawianych na tej stronie dotyczących funkcji prawdopodobieństwa. Także inne komentarze kjetil i Dilip wydają się potwierdzać to, co mówię.

Michael R. Chernick
źródło