dyskretne?

11

Powiedz, że jest ciągłą zmienną losową, a X jest zmienną dyskretną. \ Pr (X = x | Y = y) = \ frac {\ Pr (X = x) \ Pr (Y = y | X = x)} {\ Pr (Y = y)} YX

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)

Jak wiemy, Pr(Y=y)=0 ponieważ Y jest ciągłą zmienną losową. Na tej podstawie kuszę się do wniosku, że prawdopodobieństwo Pr(X=x|Y=y) jest niezdefiniowane.

Jednak Wikipedia twierdzi tutaj, że tak naprawdę jest zdefiniowana następująco:

Pr(X=x|Y=y)=Pr(X=x)fY|X=x(y)fY(y)

Pytanie: Jakiś pomysł, w jaki sposób Wikipedii udało się określić to prawdopodobieństwo?


Moja próba

Oto moja próba uzyskania wyniku Wikipedii pod względem limitów:

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=Pr(X=x)fY|X=x(y)fY(y)

Teraz wydaje się , że Pr(X=x|Y=y)Pr(X=x)fY|X=x(y)fY(y) , który pasuje twierdzi Wikipedia.

Czy tak właśnie zrobiła Wikipedia?

Ale nadal czuję, że nadużywam rachunku różniczkowego. Myślę więc, że jest niezdefiniowany, ale w miarę zbliżania się limitu do zdefiniowania i , ale nie wzrokowo, toPr(X=x|Y=y)Pr(Y=y)Pr(Y=y|X=x)Pr(X=x|Y=y) jest zdefiniowane.

Ale jestem w dużej mierze niepewny co do wielu rzeczy, w tym sztuczki z limitami, którą tam zrobiłem, czuję, że może nawet nie w pełni rozumiem sens tego, co zrobiłem.

jaskiniowiec
źródło
1
Rzeczywiście, Pr (X = x) = 0, ale gęstość X w xf (x) może nie być równa 0. Czy nie powinieneś używać etykiety „samokształcenie”?
Lil'Lobster,
2
@Lil O ile mi wiadomo, tag „samokształcenie” służy do rozwiązywania zadań domowych. Nie robie tego
jaskiniowiec
1
Strona Wikipedii tak naprawdę odnosi się do pochodnej: en.wikipedia.org/wiki/Bayes'_theorem#Derivation
Ytsen de Boer
3
Obawiam się, że twoje pochodzenie nie ma matematycznego uzasadnienia, ponieważ dla wszystkich y Y, gdy Y jest ciągłe. P(Y=y)=0yYY
Xi'an,

Odpowiedzi:

10

Warunkowy rozkład prawdopodobieństwa , x X , y Y jest formalnie zdefiniowany jako rozwiązanie równania P ( X = x , Y A ) = A P ( X = x | Y = y ) f Y ( y ) d yP(X=x|Y=y)xXyY , gdzie σ ( Y ) ma uprzednio σ -algebra związane z rozkładem Y . Jedno z tych rozwiązań zapewnia formuła Bayesa (1763), jak wskazano wWikipedii: P ( X = x | Y = y ) = P ( X = x ) f Y | X = x ( y )

P(X=x,YA)=AP(X=x|Y=y)fY(y)dyAσ(Y)
σ(Y)σY chociaż wersje, które są arbitralnie zdefiniowane w zestawie zero-miara w σ ( Y ), są również ważne.
P(X=x|Y=y)=P(X=x)fY|X=x(y)fY(y)xX, yY
σ(Y)

Pojęcie prawdopodobieństwa warunkowego w odniesieniu do pojedynczej hipotezy, której prawdopodobieństwo wynosi 0, jest niedopuszczalne. Możemy bowiem uzyskać rozkład prawdopodobieństwa dla [szerokości geograficznej] na okręgu południkowym tylko wtedy, gdy uważamy to koło za element rozkładu całej powierzchni kulistej na okręgi południkowe przy danych biegunach -  Andrei Kolmogorov

Jak pokazuje paradoks Borela-Kołmogorowa , biorąc pod uwagę konkretną wartość potencjalnie przyjętą Y , warunkowy rozkład prawdopodobieństwa P ( X = x | Y = y 0 ) nie ma ścisłego znaczenia, nie tylko dlatego, że zdarzenie { ω ;y0YP(X=x|Y=y0) ma miarę zerową, ale również dlatego, że to zdarzenie można interpretować jako mierzalne w odniesieniu do nieskończonego zakresu σ -algeb.{ω;Y(ω)=y0}σ

Uwaga: oto jeszcze bardziej formalne wprowadzenie, zaczerpnięte z przeglądu teorii prawdopodobieństwa na blogu Terry Tao :

Definicja 9 (rozpad) Niech jest zmienną losową o zakresie badań . Rozpad ( R ' , ( μ Y ) r R ' ) na leżącej próbkowania przestrzeni Ohm względem Y jest podzbiorem R ' o R pełnej środka μ Y (zatem Y R ' prawie na pewno) wraz z przypisanie miary prawdopodobieństwa P ( | Y = y )YR(R,(μy)yR)ΩYRRμYYRP(|Y=y)na podprzestrzeń z Ohm na każdy Y R , który jest do zmierzenia w tym sensie, że mapa Y P ( C | Y = Y ) można zmierzyć za każdą zdarzenie F , i takie, że P ( F ) = E P ( F | Y ) dla wszystkich takich zdarzeń, gdzieΩy:={ωΩ:Y(ω)=y}ΩyRyP(F|Y=y)F

P(F)=EP(F|Y)
jest (prawie na pewno zdefiniowaną) zmienną losową zdefiniowaną jako równa P ( F | Y = y ) za każdym razem, gdy Y = y .P(F|Y)P(F|Y=y)Y=y

Biorąc pod uwagę taki rozpad, możemy następnie warunkować zdarzenie dla dowolnego y R ' , zastępując Ω podprzestrzenią Ω y (indukowaną algebrą σ ), ale zastępując leżącą u podstaw miarę prawdopodobieństwa P przez P ( | Y = y ) . Możemy zatem warunkować (bezwarunkowe) zdarzenia F i zmienne losowe X do tego zdarzenia, aby utworzyć zdarzenia warunkowe ( F | Y = y i zmienne losowe Y=yyRΩΩyσPP(|Y=y)FX(F|Y=y) w przestrzeni warunkowanej, co powoduje prawdopodobieństwo warunkowe P ( F | Y = y ) (co jest zgodne z istniejącą notacją tego wyrażenia) i oczekiwanie warunkowe E ( X | Y = y ) (przy założeniu absolutna całkowalność w tej uwarunkowanej przestrzeni). Następnie ustawiamy E ( X | Y ) jako (prawie na pewno zdefiniowaną) zmienną losową zdefiniowaną jako równa E ((X|Y=y)P(F|Y=y)E(X|Y=y)E(X|Y) ilekroć Y = y .E(X|Y=y)Y=y

Xi'an
źródło
1
Już daje +1, ale ... może to dręczące, ale czy nie lepiej byłoby odwoływać się do twierdzenia Bayesa jako formuły Bayesa / Laplace'a?
Tim
2
XY
4

YX jest dyskretne.

Mieszana gęstość spoiny:

faXY(x,y)

Gęstość krańcowa i prawdopodobieństwo:

faY(y)=xXfaXY(x,y)

P.(X=x)=faXY(x,y)rey

Gęstość warunkowa i prawdopodobieństwo:

faYX(yX=x)=faXY(x,y)P.(X=x)

P(X=xY=y)=fXY(x,y)fY(y)

Reguła Bayesa:

fYX(yX=x)=P(X=xY=y)fY(y)P(X=x)

P(X=xY=y)=fYX(yX=x)P(X=x)fY(y)

Oczywiście nowoczesnym, rygorystycznym sposobem radzenia sobie z prawdopodobieństwem jest teoria miar. Definicja precyzji znajduje się w odpowiedzi Xi'ana.

Matthew Gunn
źródło
2

fX(x|Y=y)=P(Y=y|X=x)fX(x)p(Y=y)
P(X=x|Y=y)XYX w tym przypadku

Edycja: Z powodu zamieszania związanego z notacją (patrz komentarze) powyższe tak naprawdę odnosi się do sytuacji odwrotnej do tego, o co pytał jaskiniowiec.

Ruben van Bergen
źródło