Ostatnio natknąłem się na tę tożsamość:
Oczywiście jestem zaznajomiony z prostszą wersją tej reguły, a mianowicie, że ale nie byłem w stanie znaleźć uzasadnienia dla jego uogólnienie.
Byłbym wdzięczny, gdyby ktoś mógł wskazać mi niezbyt techniczne odniesienie do tego faktu, a nawet lepiej, gdyby ktoś mógł przedstawić prosty dowód na ten ważny wynik.
Odpowiedzi:
TRAKTOWANIE NIEformalne
Należy pamiętać, że notacja, w której warunkujemy zmienne losowe, jest niedokładna, choć ekonomiczna, jako notacja. W rzeczywistości warunkujemy na sigma-algebrze, że te losowe zmienne generują. Innymi słowy, oznacza . Ta uwaga może wydawać się nie na miejscu w „Nieformalnym traktowaniu”, ale przypomina nam, że nasze byty uwarunkowane są kolekcjami zbiorów (a kiedy warunkujemy na jednej wartości, to jest to zbiór singletonów). A co zawierają te zestawy? Zawierają one informacje , z którymi możliwe wartości zmiennej losowej dostarczyć nam o tym, co może się zdarzyć z realizacją .E[Y∣X] X Y σ ( X ) ⊆ σ ( X , Z ) Y σ ( X , Z ) σ ( X ) σ ( X ) ≡ I x σ ( X , Z ) ≡ I x zE[Y∣σ(X)] X Y σ(X)⊆σ(X,Z) Y σ(X,Z) σ(X)
σ(X)≡Ix σ(X,Z)≡Ixz
Wprowadzając pojęcie Informacji, pozwala nam myśleć (i używać) Prawa Iterowanych Oczekiwań (czasami nazywanego „Właściwością Wieży”) w bardzo intuicyjny sposób:
sigma-algebra generowana przez dwie losowe zmienne jest przynajmniej tak duży jak wygenerowany przez jedną zmienną losową: w odpowiednim znaczeniu teoretycznym. Tak więc informacja o zawarta w jest co najmniej tak duża jak odpowiednia informacja w . Teraz, jako notacja insynuacyjna, ustaw i . Następnie można zapisać LHS równania, na które patrzymy
Y I x z I x
Czy możemy jakoś „wziąć pod uwagę” ? Nie - wiemy tylko . Ale jeśli użyjemy tego, co mamy (ponieważ jesteśmy zobowiązani wyrażeniem, które chcemy rozwiązać), to zasadniczo mówimy rzeczy o pod operatorem oczekiwań, tj. Mówimy „ ”, nie więcej - właśnie wyczerpaliśmy nasze informacje. I x Y E ( Y ∣ I x )Ixz Ix Y E(Y∣Ix)
Stąd
Jeśli ktoś tego nie zrobi, wrócę na formalne leczenie.
(Nieco więcej) FORMALNE LECZENIE
Zobaczmy, jak dwie bardzo ważne książki teorii prawdopodobieństwa, P. Billingsley's Probability and Measure (3d ed.-1995) i D. Williams „Prawdopodobieństwo z Martingales” (1991), traktują kwestię udowodnienia „Law Of Iterated Expectations”:
Billingsley poświęca dokładnie trzy wiersze na dowód. Williams i ja cytuję, mówi
To jedna linia tekstu. Dowód Billingsleya nie jest mniej nieprzejrzysty.
Mają oczywiście rację: ta ważna i bardzo intuicyjna właściwość warunkowego oczekiwania wywodzi się zasadniczo bezpośrednio (i prawie natychmiast) z jej definicji - jedynym problemem jest, podejrzewam, że tej definicji nie uczy się, a przynajmniej nie podkreśla, poza prawdopodobieństwem lub zmierz koła teoretyczne. Aby jednak przedstawić (prawie) trzy wiersze, które zawiera Prawo Iterowanych Oczekiwań, potrzebujemy definicji warunkowego oczekiwania, a raczej jego właściwości definiującej .
Niech przestrzeń prawdopodobieństwa , oraz do zabudowy zmienną losową . Niech być pod- -algebra o , . Następnie istnieje funkcja która jest -measurable, jest liczbą całkowitą i (jest to właściwość definiująca)Y G σ F G ⊆ F W G(Ω,F,P) Y G σ F G⊆F W G
gdzie jest funkcją wskaźnik zestawu . Mówimy, że jest („wersją”) warunkowym oczekiwaniem dla biorąc pod uwagę , i piszemy Kluczowy szczegół, na który należy zwrócić uwagę, to to, że warunkowe oczekiwanie ma taką samą wartość oczekiwaną jako robi, a nie tylko w całym , ale w każdej podgrupie z . G W Y G W = E ( Y ∣ G )1G G W Y G Y G G GW=E(Y∣G)a.s.
Y G G G
(Spróbuję teraz przedstawić, w jaki sposób właściwość Tower wywodzi się z definicji warunkowych oczekiwań).
G σ H ⊆ G G ∈ H ⇒ G ∈ G W H U = E ( W ∣ H )W jest matematyczną zmienną losową mierzalną. Rozpatrzmy kilka sub -algebra, np . Następnie . Tak więc, analogicznie jak poprzednio, mamy warunkowe oczekiwanie na biorąc pod uwagę , powiedzmy to charakteryzuje się G σ H⊆G G∈H⇒G∈G W H U=E(W∣H)a.s.
Ponieważ , dają nam równania i [ 1 ] [ 2 ]H⊆G [1] [2]
Ale to jest własność zdefiniowanie warunkowego oczekiwaniu danego . HY H Mamy więc prawo pisać
Ponieważ mamy również konstrukcję , właśnie udowodniliśmy właściwość Tower lub ogólna forma Prawa Iterowanych Oczekiwań - w ośmiu wierszach.U = E ( W ∣ H ) = E ( E [ Y ∣ G ] ∣ H )U=E(Y∣H)a.s.
U=E(W∣H)=E(E[Y∣G]∣H)
źródło
Sposób, w jaki rozumiem warunkowe oczekiwania i uczę moich uczniów, jest następujący:
warunkowe oczekiwanie to zdjęcie wykonane aparatem o rozdzielczościE[Y|σ(X)] σ(X)
Jak wspomniał Alecos Papadopoulos, notacja jest bardziej precyzyjna niż . Wzdłuż linii aparatu można myśleć o jak o oryginalnym obiekcie, np. Krajobrazie, scenerii. to zdjęcie wykonane aparatem o rozdzielczości . Oczekiwanie to operator uśredniania (operator „zamazujący”?). Scenariusz może zawierać wiele rzeczy, ale zdjęcie wykonane kamerą o niskiej rozdzielczości z pewnością sprawi, że znikną jakieś szczegóły, np. Na niebie może znajdować się UFO, które można zobaczyć gołym okiem, ale nie pojawiają się na zdjęciu wykonanym przez (iPhone 3?)E[Y|σ(X)] E[Y|X] Y E[Y|σ(X,Z)] σ(X,Z)
Jeśli rozdzielczość jest tak wysoka, że , to zdjęcie jest w stanie uchwycić każdy szczegół prawdziwej scenerii. W tym przypadku mamy .σ(X,Z)=σ(Y) E[Y|σ(Y)]=Y
Teraz można postrzegać jako: za pomocą innej kamery o rozdzielczości (np. IPhone 1), która jest niższa niż (np. IPhone 3) i zrób zdjęcie na tym zdjęciu wygenerowanym przez aparat o rozdzielczości , wtedy powinno być jasne, że to zdjęcie na zdjęciu powinno być takie samo, jak gdybyś pierwotnie po prostu użyj aparatu o niskiej rozdzielczości na scenerii.E[E[Y|σ(X,Z)]|σ(X)] σ(X) σ(X,Z) σ(X,Z) σ(X)
To zapewnia intuicję na . W rzeczywistości ta sama intuicja mówi nam, że wciąż. Wynika to z faktu, że: jeśli twoje pierwsze zdjęcie zostało zrobione przez iPhone'a 1 (tj. W niskiej rozdzielczości), a teraz chcesz użyć lepszego aparatu (np. IPhone'a 3), aby wygenerować kolejne zdjęcie na pierwszym zdjęciu, to nie ma mowy, abyś może poprawić jakość pierwszego zdjęcia.E[E[Y|X,Z]|X]=E[Y|X] E[E[Y|X]|X,Z]=E[Y|X]
źródło
W Prawie Iterowanego Oczekiwania (LIE), , że wewnętrzne oczekiwanie jest zmienną losową, która przypadkowo jest funkcją , powiedzmy , a nie funkcją . To, że oczekiwanie tej funkcji jest równe oczekiwaniu jest konsekwencją LIE. Wszystko to jest, machając ręką, tylko twierdzeniem, że średnią wartość można znaleźć, uśredniając średnie wartości w różnych warunkach. W efekcie wszystko to jest tylko bezpośrednią konsekwencją prawa całkowitego prawdopodobieństwa. Na przykład, jeśli iE[E[Y∣X]]=E[Y] X g(X) Y X Y Y Y X Y są dyskretnymi losowymi zmiennymi ze wspólnym pmf , a następnie
\ scriptstyle {\ text {RV} ~ E [Y \ mid X] ~ \ text {ma wartość} ~ E [Y \ mid X = x] ~ \ text {when} ~ X = x} \ end {align}
Uwaga jak to ostatnie oczekiwanie dotyczy ;pX,Y(x,y)
Uogólniona LIE że patrzysz ma na lewym , w którym wewnętrzna oczekiwanie to funkcja od dwóch zmiennych losowych i . Argument jest podobny do przedstawionego powyżej, ale teraz musimy wykazać, że zmienna losowa jest równa innej zmiennej losowej. Robimy to, patrząc na wartość gdy ma wartość . Pomijamy wyjaśnienia, mamy toE[E[Y∣X,Z]∣X] h(X,Z) X Z E[Y∣X] E[Y∣X] X x
Zatem dla każdej wartości zmiennej losowej wartość zmiennej losowej (którą zauważyliśmy wcześniej jest funkcją , a nie ), jest taka sama jak wartość losowa zmienna , to znaczy te dwie losowe zmienne są równe. Czy ja mógłbym Cię okłamywać?X E [ Y ∣ X ] X Y E [ E [ Y ∣ X , Z ] ∣ X ]x X E[Y∣X] X Y E[E[Y∣X,Z]∣X]
źródło