Intuicja warunkowego oczekiwania na -algebra

20

Niech będzie przestrzenią prawdopodobieństwa, biorąc pod uwagę zmienną losową i a -algebra możemy zbudować nową zmienną losową , która jest warunkowym oczekiwaniem.( Ω , F , μ ) (Ω,F,μ)ξ : Ω Rξ:ΩR σ σGFGF E [ ξ | G ]E[ξ|G]


Jaka jest intuicja do myślenia o ? Rozumiem intuicję następujących rzeczy:E [ ξ | G ]E[ξ|G]

(i) gdzie jest zdarzeniem (z prawdopodobieństwem dodatnim).E [ ξ | A ] E[ξ|A]AA

(ii) gdzie jest dyskretną zmienną losową.E [ ξ | η ] E[ξ|η]ηη

Ale nie mogę sobie wyobrazić . Rozumiem jego matematykę i rozumiem, że jest ona zdefiniowana w taki sposób, aby uogólnić prostsze przypadki, które możemy sobie wyobrazić. Niemniej jednak nie uważam tego sposobu myślenia za użyteczny. Pozostaje dla mnie tajemniczym przedmiotem.E [ ξ | G ]E[ξ|G]


Na przykład niech będzie zdarzeniem o . Tworzą -algebrze , jeden wygenerowany przez . Wtedy będzie równa jeśli , i będzie równa jeśli . Innymi słowy, jeśli i jeśli .A Aμ ( A ) > 0 μ(A)>0σ σG = { , A , A c , Ω } G={,A,Ac,Ω}A AE [ ξ | G ] ( ω ) E[ξ|G](ω)1μ ( A )Aξ1μ(A)AξωAωA1μ ( A c )Acξ1μ(Ac)AcξωAωAE[ξ| G](ω)=E[ξ| A]E[ξ|G](ω)=E[ξ|A]ωAωAE[ξ| G](ω)=E[ξ| Ac]E[ξ|G](ω)=E[ξ|Ac]ωAcωAc

Mylące jest to, że ω ΩωΩ , więc dlaczego nie piszemy E [ ξ | G ] ( ω ) = E [ ξ | Ω ] = E [ ξ ]E[ξ|G](ω)=E[ξ|Ω]=E[ξ] ? Dlaczego zamieniamy E [ ξ | G ]E[ξ|G] na E [ ξ | A  lub  A c ]E[ξ|A or Ac] zależności od tego, czy ω AωA , ale nie wolno zastępować E [ ξ | G ]E[ξ|G] przez E [ ξ ]E[ξ] ?


Uwaga. Odpowiadając na to pytanie, nie wyjaśniaj tego, stosując rygorystyczną definicję warunkowego oczekiwania. Rozumiem, że. Chcę zrozumieć, co powinno być obliczane przez warunkowe oczekiwanie i dlaczego odrzucamy jedno zamiast drugiego.

Nicolas Bourbaki
źródło

Odpowiedzi:

16

Jednym ze sposobów myślenia o reprezentacji warunkowej jest rzutowanie na -algebra .σ GσG

wprowadź opis zdjęcia tutaj( z Wikimedia commons )

Jest to w rzeczywistości ściśle prawdziwe, gdy mówimy o zmiennych losowych całkowitych kwadratowych; w tym przypadku jest w rzeczywistości ortogonalnym rzutem zmiennej losowej na podprzestrzeń składającą się ze zmiennych losowych mierzalnych w odniesieniu do . W rzeczywistości okazuje się to nawet w pewnym sensie prawdziwe w przypadku zmiennych losowych poprzez aproksymację zmiennymi losowymi .E [ ξ | G ] ξ L 2 ( Ω ) G L 1 L 2E[ξ|G]ξL2(Ω)GL1L2

(Zobacz komentarze dla odniesień.)

Jeśli wziąć pod uwagę algebry jako reprezentujące ilość dostępnych informacji (interpretacja, która jest de rigueur w teorii procesów stochastycznych), to większe algebry oznaczają więcej możliwych zdarzeń, a tym samym więcej informacji o możliwych wynikach, podczas gdy mniejsze algebry oznaczają mniej możliwych zdarzeń, a tym samym mniej informacji o możliwych wynikach.σ - σ - σ -σσσ

Dlatego rzutowanie mierzalnej zmiennej losowej na mniejszą algebra oznacza, że ​​najlepiej wartość biorąc pod uwagę bardziej ograniczone informacje dostępne z .F ξ σ - G ξ GFξσGξG

Innymi słowy, biorąc pod uwagę tylko informacje z , a nie całość informacji z , jest w ścisłym sensie naszym najlepszym możliwe odgadnięcie, czym jest zmienna losowa .GGFFE[ξ|G]E[ξ|G]ξξ


Jeśli chodzi o twój przykład, myślę, że możesz mylić losowe zmienne i ich wartości. Zmienna losowa jest funkcją, której domeną jest przestrzeń zdarzeń; to nie jest liczba. Innymi słowy, , natomiast dla , .XXX:ΩRX:ΩRX{f | f:ΩR}X{f | f:ΩR}ωΩωΩX(ω)RX(ω)R

Notacja warunkowego oczekiwania, moim zdaniem, jest naprawdę zła, ponieważ sama jest zmienną losową, tj. Również funkcją . Natomiast (regularne) oczekiwanie zmiennej losowej jest liczbą . Oczekiwanie warunkowe zmiennej losowej jest całkowicie inną wielkością niż oczekiwanie na tę samą zmienną losową, tj. nawet nie „sprawdza typu” za pomocą .E[ξ|G]E[ξ|G]E[ξ]E[ξ]

Innymi słowy, użycie symbolu do oznaczenia zarówno normalnego, jak i warunkowego oczekiwania jest bardzo dużym nadużyciem notacji, co prowadzi do niepotrzebnego pomieszania.EE

Biorąc to wszystko pod uwagę, zauważ, że to liczba (wartość zmiennej losowej E [ ξ | G ] obliczonej na wartość ω ), ale E [ ξ | Ω ] jest zmienną losową, ale okazuje się stałą zmienną losową (tj. Trywialną degeneracją), ponieważ -algebra generowana przez Ω , { , Ω } jest trywialna / zdegenerowana, a następnie technicznie mówiąc, stała wartość tej stałej zmiennej losowej jest E [ ξ ]E[ξ|G](ω)E[ξ|G](ω)E[ξ|G]ωE[ξ|Ω]σσΩ{,Ω}E[ξ], gdzie tutaj E oznacza regularne oczekiwanie, a zatem liczbę, a nie warunkowe oczekiwanie, a zatem nie zmienną losową.E

Również wydajesz się być zdezorientowany co do zapisu E [ ξ | A ] oznacza; technicznie rzecz biorąc, możliwe jest warunkowanie tylko na σ - algebrach, a nie na pojedynczych zdarzeniach, ponieważ miary prawdopodobieństwa są definiowane tylko na kompletnych σ - algebrach, a nie na pojedynczych zdarzeniach. Zatem E [ ξ | A ] to po prostu (leniwy) skrót dla E [ ξ | σ ( A ) ] , gdzie σ ( A ) oznacza σ -E[ξ|A]σσE[ξ|A]E[ξ|σ(A)]σ(A)σalgebra wygenerowana przez zdarzenie A , którym jest { , A , A c , Ω } . Zauważ, że σ ( A ) = G = σ ( A c ) ; innymi słowy, E [ ξ | A ] , E [ ξ | G ] i E [ ξ | C ] są różne sposoby do określenia dokładnie tego samego obiektu .A{,A,Ac,Ω}σ(A)=G=σ(Ac)E[ξ|A]E[ξ|G]E[ξ|Ac]

Na koniec chcę dodać, że podane przeze mnie intuicyjne wyjaśnienie wyjaśnia, dlaczego stała wartość zmiennej losowej E [ ξ | Ω ] = E [ ξ | σ ( Ω ) ] = E [ ξ | { , Ω } ] to tylko liczba E [ ξ ] - σ - algebra { , Ω }E[ξ|Ω]=E[ξ|σ(Ω)]=E[ξ|{,Ω}]E[ξ]σ{,Ω}reprezentuje najmniejszą możliwą ilość informacji, jaką moglibyśmy mieć, w rzeczywistości zasadniczo żadnej informacji, więc w tych ekstremalnych okolicznościach najlepszym możliwym przypuszczeniem, dla którego zmienna losowa ξ jest stałą zmienną losową o stałej wartości E [ ξ ] .ξE[ξ]

Zauważ, że wszystkie stałe zmienne losowe są zmiennymi losowymi L 2 i wszystkie są mierzalne w odniesieniu do trywialnej σ -algebry { , Ω } , więc rzeczywiście mamy stałą, że stała losowa E [ ξ ] jest rzutem ortogonalnym ξ na podprzestrzeń L 2 ( Ω ) składającą się ze zmiennych losowych mierzalnych w odniesieniu do { , Ω } , jak twierdzono.L2σ{,Ω}E[ξ]ξL2(Ω){,Ω}

Chill2Macht
źródło
2
@William Nie zgadzam się z tobą w sprawie korzystania z E [ ξ | A ] jako run var. Wiele książek definiuje E [ ξ | A ] być liczbą, a nie zmienną var. Jest to najlepszy możliwy szacunek ξ | . Jest to użyteczne pojęcie i wysoce intuicyjne. Zignorowanie tego całkowicie, tylko dlatego, że masz ogólne pojęcie wyrażenia, jako że var var jest błędne z pedagogicznego punktu widzenia. Nie jestem zdezorientowany, co to jest rv, ani nie widzę, jak cokolwiek napisałem, doprowadziłoby cię do takiego myślenia. E[ξ|A]E[ξ|A]ξ|A
Nicolas Bourbaki,
1
@William Myślenie o cond expe jako przybliżeniu do var var z G reprezentującymi informacje, jest czymś, co widziałem wcześniej, ale nigdy nie zastanawiałem się nad tym i próbowałem znaleźć inny sposób wizualizacji cond expec. Korzystając z Twojej sugestii, napiszę prosty przykład i opublikuję go jako odpowiedź dla siebie i innych osób. Być może niektórzy ludzie mogą następnie rozwinąć mój przykład i podać bardziej egzotyczny. G
Nicolas Bourbaki,
1
@NicolasBourbaki Polecam zajrzeć na str. 214 czwartej edycji prawdopodobieństwa Durretta - teorii i przykładów . Mogę również odesłać cię do innych źródeł omawiających ten temat. W każdym razie tak naprawdę nie jest to kwestia opinii - w najbardziej ogólnym przypadku oczekiwanie warunkowe jest zmienną losową, a warunkowanie odbywa się tylko w odniesieniu do σ - algeb; warunkowanie w odniesieniu do zdarzenia jest warunkowaniem w odniesieniu do σ - algebry generowanej przez zdarzenie, a warunkowanie w odniesieniu do zmiennej losowej jest warunkowaniem względem σ -algebry generowanej przez RVσσσ
Chill2Macht
3
@William I mogę skierować Cię do źródeł, które określają warunki. exep. zdarzenia, które ma być liczbą rzeczywistą. Nie wiem, dlaczego tak utknąłeś w tym punkcie. Można to zdefiniować w dowolny sposób, o ile pojęcia nie zostaną pomieszane. Z powodów pedagogicznych nauczanie na temat prob. teoria i natychmiastowe przejście do najbardziej ogólnej definicji nie jest pouczające. W obu przypadkach tak naprawdę nie ma to znaczenia w tej dyskusji, a twoja skarga dotyczy notacji / semantyki.
Nicolas Bourbaki,
1
@NicolasBourbaki Rozdział 5 prawdopodobieństwa Whittle'a poprzez oczekiwanie daje bardzo dobry opis (moim zdaniem) obu charakterystyk warunkowych oczekiwań i dobrze wyjaśnia, w jaki sposób każda definicja odnosi się do drugiej definicji i jest nią motywowana. Masz rację, że to rozróżnienie jest jeszcze jedną semantyką. Mój entuzjazm dla bardziej ogólnej definicji wynika (jak sądzę) z przeczytania tego rozdziału (5 prawdopodobieństwa Whittle'a przez oczekiwanie ), który (moim zdaniem) był dobrym argumentem na temat tego, w jaki sposób bardziej ogólna definicja jest w pewnym sensie łatwiejsza do zrozumienia.
Chill2Macht
3

Spróbuję opracować to, co zasugerował William.

Niech Ω będzie polem przykładowego rzutu monetą dwukrotnie. Zdefiniuj wybieg. var. ξ być liczbą. głowic występujących w eksperymencie. Oczywiście E [ ξ ] = 1 . Jednym ze sposobów myślenia o tym , co 1 , jako expec. wartość, reprezentuje najlepsze oszacowanie dla ξ . Gdybyśmy musieli zgadywać, jaką wartość przyjąłaby ξ , zgadlibyśmy 1 . Jest tak, ponieważ E [ ( ξ - 1 ) 2 ] E [ ( ξ - a ) 2ΩξE[ξ]=11ξξ1] dla dowolnej liczby rzeczywistej a .E[(ξ1)2]E[(ξa)2]a

Oznaczmy przez A = { H T , H H } jako zdarzenie, w którym pierwszym wynikiem jest głowa. Niech G = { , A , A c , Ω } będzie σ -alg. gen. przez A . Myślimy, że G reprezentuje to, co wiemy po pierwszym rzucie. Po pierwszym rzucie wystąpiły albo głowy, albo głowy nie wystąpiły. W związku z tym, że mieszczą się w przypadku A i A C po pierwszym rzucie.A={HT,HH}G={,A,Ac,Ω}σAGAAc

Jeśli jesteśmy w przypadku A , najlepszym możliwym oszacowaniem dla ξ byłoby E [ ξ | A ] = 1,5 , a jeśli będziemy w przypadku A c , wówczas najlepszym możliwym oszacowaniem dla ξ byłoby E [ ξ | A c ] = 0,5 .AξE[ξ|A]=1.5AcξE[ξ|Ac]=0.5

Teraz zdefiniuj przebieg. var. η ( ω ) być albo 1,5 albo 0,5 w zależności od tego, czy ω . To działało. var. η , jest lepszym przybliżeniem niż 1 = E [ ξ ], ponieważ E [ ( ξ - η ) 2 ] E [ ( ξ - 1 ) 2 ] .η(ω)1.50.5ωAη1=E[ξ]E[(ξη)2]E[(ξ1)2]

To, co robi η, daje odpowiedź na pytanie: jaki jest najlepszy szacunek ξ po pierwszym rzucie? Ponieważ nie wiemy informacje po pierwszym rzucie, η będzie zależeć od A . Po ujawnieniu nam zdarzenia G , po pierwszym podrzuceniu, wartość η jest określana i zapewnia najlepsze możliwe oszacowanie dla ξ . ηξηAGηξ

Problem z użyciem ξ jako własnego oszacowania, tj. 0 = E [ ( ξ - ξ ) 2 ] E [ ( ξ - η ) 2 ] jest następujący. ξ nie jest dobrze zdefiniowany po pierwszym rzucie. Powiedzmy, że wynikiem eksperymentu jest ω, a pierwszym wynikiem są głowy, jesteśmy w przypadku A , ale czym jest ξ ( ω ) = ? Nie wiemy od pierwszego rzutu, że wartość ta jest dla nas niejednoznaczna, a więc ξξ0=E[(ξξ)2]E[(ξη)2]ξωAξ(ω)=?ξnie jest dobrze zdefiniowany. Mówiąc bardziej formalnie, mówimy, że ξ nie jest mierzalne G, tzn. Jego wartość nie jest dobrze zdefiniowana po pierwszym rzucie. Zatem η jest najlepszym możliwym oszacowaniem ξ po pierwszym rzucie.ξGηξ

Być może ktoś tutaj może wymyślić bardziej wyrafinowany przykład, używając przestrzeni próbki [ 0 , 1 ] , gdzie ξ ( ω ) = ω , a G jakąś nietrywialną σ -algebrę.[0,1]ξ(ω)=ωGσ

Nicolas Bourbaki
źródło
1

Chociaż prosisz o nieużywanie definicji formalnej, uważam, że definicja formalna jest prawdopodobnie najlepszym sposobem jej wyjaśnienia.

Wikipedia - oczekiwanie warunkowe :

Zatem warunkowe oczekiwanie X dla H , oznaczonego jako E ( X H ) , jest dowolną funkcją mierzoną H ( Ω R n ), która spełnia:HE(XH)

H E(X H )d P = H Xd P.dla każdegoH H

Po pierwsze, jest to funkcja mierzalna dla H. Po drugie, musi odpowiadać oczekiwania nad każdym mierzalne (sub) ustawionej w H . Tak więc w przypadku zdarzenia A algebra sigma to { A , A C , , Ω } , więc wyraźnie jest ustawiona tak, jak określono w pytaniu dla ω A / A c . Podobnie dla każdej dyskretnej zmiennej losowej (i ich kombinacji), wymieniamy wszystkie prymitywne zdarzenia i przypisujemy oczekiwanie na podstawie tego prymitywnego zdarzenia.

Rozważmy teraz rzucanie monetą nieskończoną ilość razy, gdzie na każdym wrzucić ja, ty dostać 1 / 2 i , jeśli moneta jest ogony następnie łączne wygrane są X = Ď i = 1 12 i cigdzieci= 1 dla ogonów i 0 dla głów. Zatem X jest prawdziwą zmienną losową na[0,1]. Po rzutach n monet, znać wartość X precyzji1/2N, na przykład po 2 na monety miota go w [0,1 / 4] [1 / 4,1 / 2], [1 / 2,3 / 4] lub [3 / 4,1] - po każdym rzucie monetą twoja powiązana algebra sigma staje się coraz drobniejsza i podobnie warunkowe oczekiwanie na X staje się coraz bardziej precyzyjne.

Mamy nadzieję, że ten przykład wartościowej zmiennej losowej z sekwencją coraz to dokładniejszych algebr sigma (Filtracja) odsuwa cię od intuicji opartej wyłącznie na zdarzeniach, do której jesteś przyzwyczajony, i wyjaśnia jej cel.

seanv507
źródło
Przepraszam, ale głosowałem za tym pytaniem. Nie odpowiada na to, o co pierwotnie pytałem. Nie zawiera też żadnych nowych informacji, których wcześniej nie znałem.
Nicolas Bourbaki,
To, co próbuję ci zasugerować, to to, że nie rozumiesz definicji formalnej tak dobrze, jak ci się wydaje (tak jak sugerowała inna odpowiedź), więc dopóki nie przejdziesz przez to, co jest nieintuicyjne w stosunku do definicji formalnej, nie będziesz postępował.
seanv507
Rozumiem formalną definicję w porządku. Na pytania, które zadałem, wiem, jak na nie odpowiedzieć, pracując na podstawie formalnych definicji. „Inna odpowiedź” polegała na wyjaśnieniu mojego pytania bez użycia definicji oszustwa. exp.
Nicolas Bourbaki,