Uogólnienie Prawa Iterowanych Oczekiwań

43

Ostatnio natknąłem się na tę tożsamość:

E[E(Y|X,Z)|X]=E[Y|X]

Oczywiście jestem zaznajomiony z prostszą wersją tej reguły, a mianowicie, że ale nie byłem w stanie znaleźć uzasadnienia dla jego uogólnienie.E[E(Y|X)]=E(Y)

Byłbym wdzięczny, gdyby ktoś mógł wskazać mi niezbyt techniczne odniesienie do tego faktu, a nawet lepiej, gdyby ktoś mógł przedstawić prosty dowód na ten ważny wynik.

JohnK
źródło
2
Jeśli sama była uwarunkowana pewnego wtedy nie ten upadek dokładnie z prostszej wersji? yx
Mehrdad

Odpowiedzi:

36

TRAKTOWANIE NIEformalne

Należy pamiętać, że notacja, w której warunkujemy zmienne losowe, jest niedokładna, choć ekonomiczna, jako notacja. W rzeczywistości warunkujemy na sigma-algebrze, że te losowe zmienne generują. Innymi słowy, oznacza . Ta uwaga może wydawać się nie na miejscu w „Nieformalnym traktowaniu”, ale przypomina nam, że nasze byty uwarunkowane są kolekcjami zbiorów (a kiedy warunkujemy na jednej wartości, to jest to zbiór singletonów). A co zawierają te zestawy? Zawierają one informacje , z którymi możliwe wartości zmiennej losowej dostarczyć nam o tym, co może się zdarzyć z realizacją .E[YX]X Y σ ( X ) σ ( X , Z ) Y σ ( X , Z ) σ ( X ) σ ( X ) I x σ ( X , Z ) I x zE[Yσ(X)]XY
Wprowadzając pojęcie Informacji, pozwala nam myśleć (i używać) Prawa Iterowanych Oczekiwań (czasami nazywanego „Właściwością Wieży”) w bardzo intuicyjny sposób:
sigma-algebra generowana przez dwie losowe zmienne jest przynajmniej tak duży jak wygenerowany przez jedną zmienną losową: w odpowiednim znaczeniu teoretycznym. Tak więc informacja o zawarta w jest co najmniej tak duża jak odpowiednia informacja w . Teraz, jako notacja insynuacyjna, ustaw i . Następnie można zapisać LHS równania, na które patrzymyσ(X)σ(X,Z)Yσ(X,Z)σ(X)
σ(X)Ixσ(X,Z)Ixz

Y I x z I x

E[E(Y|Ixz)|Ix]
Opisując słownie powyższe wyrażenie, które mamy: "jakie jest oczekiwanie na {oczekiwana wartość danej informacji } biorąc pod uwagę, że mamy dostępne informacje tylko ? ” YIxzIx

Czy możemy jakoś „wziąć pod uwagę” ? Nie - wiemy tylko . Ale jeśli użyjemy tego, co mamy (ponieważ jesteśmy zobowiązani wyrażeniem, które chcemy rozwiązać), to zasadniczo mówimy rzeczy o pod operatorem oczekiwań, tj. Mówimy „ ”, nie więcej - właśnie wyczerpaliśmy nasze informacje. I x Y E ( Y I x )IxzIxYE(YIx)

Stąd

E[E(Y|Ixz)|Ix]=E(Y|Ix)

Jeśli ktoś tego nie zrobi, wrócę na formalne leczenie.

(Nieco więcej) FORMALNE LECZENIE

Zobaczmy, jak dwie bardzo ważne książki teorii prawdopodobieństwa, P. Billingsley's Probability and Measure (3d ed.-1995) i D. Williams „Prawdopodobieństwo z Martingales” (1991), traktują kwestię udowodnienia „Law Of Iterated Expectations”:
Billingsley poświęca dokładnie trzy wiersze na dowód. Williams i ja cytuję, mówi

„(Właściwość Tower) jest praktycznie natychmiastowa od definicji warunkowego oczekiwania”.

To jedna linia tekstu. Dowód Billingsleya nie jest mniej nieprzejrzysty.

Mają oczywiście rację: ta ważna i bardzo intuicyjna właściwość warunkowego oczekiwania wywodzi się zasadniczo bezpośrednio (i prawie natychmiast) z jej definicji - jedynym problemem jest, podejrzewam, że tej definicji nie uczy się, a przynajmniej nie podkreśla, poza prawdopodobieństwem lub zmierz koła teoretyczne. Aby jednak przedstawić (prawie) trzy wiersze, które zawiera Prawo Iterowanych Oczekiwań, potrzebujemy definicji warunkowego oczekiwania, a raczej jego właściwości definiującej .

Niech przestrzeń prawdopodobieństwa , oraz do zabudowy zmienną losową . Niech być pod- -algebra o , . Następnie istnieje funkcja która jest -measurable, jest liczbą całkowitą i (jest to właściwość definiująca)Y G σ F GF W G(Ω,F,P)YGσFGFWG

E(W1G)=E(Y1G)GG[1]

gdzie jest funkcją wskaźnik zestawu . Mówimy, że jest („wersją”) warunkowym oczekiwaniem dla biorąc pod uwagę , i piszemy Kluczowy szczegół, na który należy zwrócić uwagę, to to, że warunkowe oczekiwanie ma taką samą wartość oczekiwaną jako robi, a nie tylko w całym , ale w każdej podgrupie z . G W Y G W = E ( Y G )1GGWYGY G G GW=E(YG)a.s.
YGGG

(Spróbuję teraz przedstawić, w jaki sposób właściwość Tower wywodzi się z definicji warunkowych oczekiwań).

G σ HG G HG G W H U = E ( W H )W jest matematyczną zmienną losową mierzalną. Rozpatrzmy kilka sub -algebra, np . Następnie . Tak więc, analogicznie jak poprzednio, mamy warunkowe oczekiwanie na biorąc pod uwagę , powiedzmy to charakteryzuje się GσHGGHGGWHU=E(WH)a.s.

E(U1G)=E(W1G)GH[2]

Ponieważ , dają nam równania i [ 1 ] [ 2 ]HG[1][2]

E(U1G)=E(Y1G)GH[3]

Ale to jest własność zdefiniowanie warunkowego oczekiwaniu danego . HYHMamy więc prawo pisać Ponieważ mamy również konstrukcję , właśnie udowodniliśmy właściwość Tower lub ogólna forma Prawa Iterowanych Oczekiwań - w ośmiu wierszach.U = E ( W H ) = E ( E [ Y G ] H )U=E(YH)a.s.
U=E(WH)=E(E[YG]H)

Alecos Papadopoulos
źródło
6
(+1) Jest to pomocny sposób na opisanie abstrakcyjnej i trudnej koncepcji. Uważam jednak, że wyrażenie „... nie jest większe ...” powinno być „nie jest mniejsze”. Co więcej, tę sekcję można wyjaśnić, usuwając negatywy i stosując równoległą konstrukcję, jak w „Algebrze sigma generowanej przez dwie zmienne jest co najmniej tak duża, jak ta generowana przez jedną zmienną losową ... Więc informacja o zawierała in jest co najmniej tak wielki, jak odpowiednia informacja w . " σ ( X , Z ) σ ( X )Yσ(X,Z)σ(X)
whuber
Dziękuję wam obu, CC @ Whuber. To bardzo przydatne twierdzenie.
JohnK
@ whuber Dzięki za wykrycie tego i sugestię.
Alecos Papadopoulos
24

Sposób, w jaki rozumiem warunkowe oczekiwania i uczę moich uczniów, jest następujący:

warunkowe oczekiwanie to zdjęcie wykonane aparatem o rozdzielczościE[Y|σ(X)]σ(X)

Jak wspomniał Alecos Papadopoulos, notacja jest bardziej precyzyjna niż . Wzdłuż linii aparatu można myśleć o jak o oryginalnym obiekcie, np. Krajobrazie, scenerii. to zdjęcie wykonane aparatem o rozdzielczości . Oczekiwanie to operator uśredniania (operator „zamazujący”?). Scenariusz może zawierać wiele rzeczy, ale zdjęcie wykonane kamerą o niskiej rozdzielczości z pewnością sprawi, że znikną jakieś szczegóły, np. Na niebie może znajdować się UFO, które można zobaczyć gołym okiem, ale nie pojawiają się na zdjęciu wykonanym przez (iPhone 3?)E[Y|σ(X)]E[Y|X]YE[Y|σ(X,Z)]σ(X,Z)

Jeśli rozdzielczość jest tak wysoka, że , to zdjęcie jest w stanie uchwycić każdy szczegół prawdziwej scenerii. W tym przypadku mamy .σ(X,Z)=σ(Y)E[Y|σ(Y)]=Y

Teraz można postrzegać jako: za pomocą innej kamery o rozdzielczości (np. IPhone 1), która jest niższa niż (np. IPhone 3) i zrób zdjęcie na tym zdjęciu wygenerowanym przez aparat o rozdzielczości , wtedy powinno być jasne, że to zdjęcie na zdjęciu powinno być takie samo, jak gdybyś pierwotnie po prostu użyj aparatu o niskiej rozdzielczości na scenerii.E[E[Y|σ(X,Z)]|σ(X)]σ(X)σ(X,Z)σ(X,Z)σ(X)

To zapewnia intuicję na . W rzeczywistości ta sama intuicja mówi nam, że wciąż. Wynika to z faktu, że: jeśli twoje pierwsze zdjęcie zostało zrobione przez iPhone'a 1 (tj. W niskiej rozdzielczości), a teraz chcesz użyć lepszego aparatu (np. IPhone'a 3), aby wygenerować kolejne zdjęcie na pierwszym zdjęciu, to nie ma mowy, abyś może poprawić jakość pierwszego zdjęcia.E[E[Y|X,Z]|X]=E[Y|X]E[E[Y|X]|X,Z]=E[Y|X]

KevinKim
źródło
2
kocham to! :) świetne wyjaśnienie.
jessica
1
@jessica Cieszę się, że to pomaga :-)
Opracowanie
21

W Prawie Iterowanego Oczekiwania (LIE), , że wewnętrzne oczekiwanie jest zmienną losową, która przypadkowo jest funkcją , powiedzmy , a nie funkcją . To, że oczekiwanie tej funkcji jest równe oczekiwaniu jest konsekwencją LIE. Wszystko to jest, machając ręką, tylko twierdzeniem, że średnią wartość można znaleźć, uśredniając średnie wartości w różnych warunkach. W efekcie wszystko to jest tylko bezpośrednią konsekwencją prawa całkowitego prawdopodobieństwa. Na przykład, jeśli iE[E[YX]]=E[Y]Xg(X)YXYYYXY są dyskretnymi losowymi zmiennymi ze wspólnym pmf , a następnie \ scriptstyle {\ text {RV} ~ E [Y \ mid X] ~ \ text {ma wartość} ~ E [Y \ mid X = x] ~ \ text {when} ~ X = x} \ end {align} Uwaga jak to ostatnie oczekiwanie dotyczy ;pX,Y(x,y)

E[Y]=yypY(y)definition=yyxpX,Y(x,y)write in terms of joint pmf=yyxpYX(yX=x)pX(x)write in terms of conditional pmf=xpX(x)yypYX(yX=x)interchange order of summation=xpX(x)E[YX=x]inner sum is conditional expectation=E[E[YX]]RV E[YX] has value E[YX=x] when X=x
XE[YX] jest funkcją , a nie , ale mimo to jej średnia jest taka sama, jak średnia .XYY

Uogólniona LIE że patrzysz ma na lewym , w którym wewnętrzna oczekiwanie to funkcja od dwóch zmiennych losowych i . Argument jest podobny do przedstawionego powyżej, ale teraz musimy wykazać, że zmienna losowa jest równa innej zmiennej losowej. Robimy to, patrząc na wartość gdy ma wartość . Pomijamy wyjaśnienia, mamy to E[E[YX,Z]X]h(X,Z)XZ E[YX]E[YX]Xx

E[YX=x]=yypYX(yX=x)=yypX,Y(x,y)pX(x)=yyzpX,Y,Z(x,y,z)pX(x)=yyzpYX,Z(yX=x,Z=z)pX,Z(x,z)pX(x)=zpX,Z(x,z)pX(x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)E[YX=x,Z=z)=E[E[YX,Z]X=x]
Zwróć uwagę, że przedostatnia prawa strona jest wzorem na warunkową oczekiwaną wartość zmiennej losowejZ] (funkcja i ) warunkowaneE[YX,Z]XZod wartości . Ustalamy aby miał wartość , mnożąc wartości zmiennej losowej przez warunkową wartość pmf danej i sumując wszystkie takie warunki.XXxE[YX,Z]ZX

Zatem dla każdej wartości zmiennej losowej wartość zmiennej losowej (którą zauważyliśmy wcześniej jest funkcją , a nie ), jest taka sama jak wartość losowa zmienna , to znaczy te dwie losowe zmienne są równe. Czy ja mógłbym Cię okłamywać?X E [ Y X ] X Y E [ E [ Y X , Z ] X ]xXE[YX]XYE[E[YX,Z]X]

Dilip Sarwate
źródło