Prawo całkowitej wariancji jako twierdzenie Pitagorasa

15

Załóżmy, że X i Y mają skończony drugi moment. W przestrzeni Hilberta zmiennych losowych z drugim momentem skończonym (z iloczynem wewnętrznym T1,T2 zdefiniowanym przez E(T1T2) , ||T||2=E(T2) ), możemy interpretować E(Y|X) w rzucie Y na przestrzeni funkcji X .

Wiemy również, że prawo całkowitej wariancji brzmi

Var(Y)=E(Var(Y|X))+Var(E(Y|X))

Czy istnieje sposób interpretacji tego prawa w kontekście powyższego obrazu geometrycznego? Powiedziano mi, że prawo jest takie samo jak twierdzenie Pitagorasa dla trójkąta prostokątnego o bokach Y,E(Y|X),YE(Y|X) . Rozumiem, dlaczego trójkąt jest ustawiony pod kątem prostym, ale nie w jaki sposób twierdzenie Pitagorasa uchyla prawo całkowitej zmienności.

renrenthehamster
źródło

Odpowiedzi:

7

Zakładam, że nie masz nic przeciwko traktowaniu trójkąta pod kątem prostym, co oznacza, że E[YX] i YE[YX]nieskorelowanymi zmiennymi losowymi. W przypadku nieskorelowanych zmiennych losowych A i B ,

(1)var(A+B)=var(A)+var(B),
a więc, jeśli zestaw A=YE[YX] iB=E[YX] więcA+B=Y , otrzymujemy to
(2)var(Y)=var(YE[YX])+var(E[YX]).
Pozostaje pokazać, żevar(YE[YX]) jest taki sam jak E[var(YX)] dzięki czemu możemy zmienić stan(2) jako
(3)var(Y)=E[var(YX)]+var(E[YX])
która jest formułą całkowitej wariancji.

Dobrze wiadomo, że oczekiwana wartość zmiennej losowej wynosi E [ Y ] , to znaczy E [ E [ Y X ] ] = E [ Y ] . Widzimy więc, że E [ A ] = E [ Y - E [ Y X ] ] = E [ Y ] - E [ E [E[YX]E[Y]E[E[YX]]=E[Y] z czego wynika, że var ( A ) = E [ A 2 ] , to znaczy var ( Y - E [ Y X ] ) = E [ ( Y - E [ Y X ] ) 2 ] . Niech C oznacza zmienną losową ( Y - E [ Y

E[A]=E[YE[YX]]=E[Y]E[E[YX]]=0,
var(A)=E[A2]
(4)var(YE[YX])=E[(YE[YX])2].
C , abyśmy mogli napisać, że var ( Y - E [ Y X ] ) = E [ C ] . Ale E [ C ] = E [ E [ C X ] ] gdzie E [ C X ] = E [ ( Y - E [ Y X ] )(YE[YX])2
(5)var(YE[YX])=E[C].
E[C]=E[E[CX]] Teraz,biorąc pod uwagę,że X = x , rozkład warunkowy Y ma średnią E [ Y X = x ], a więc E [ ( Y - E [ Y X = x ] ) 2 | X = x ] = var ( Y X = x ) . Innymi słowy, EE[CX]=E[(YE[YX])2|X].X=xYE[YX=x]
E[(YE[YX=x])2|X=x]=var(YX=x).
więczmienna losowa E [ C X ] jest po prostu var ( Y X ) . Stąd E [ C ] = E [ E [ C X ] ] = E [ var ( Y X ) ] ,E[CX=x]=var(YX=x) E[CX]var(YX)
(6)E[C]=E[E[CX]]=E[var(YX)],
co po podstawieniu do pokazuje, że var ( Y - E [ Y X ] ) = E [ var ( Y X ) ] . To sprawia, że ​​prawa strona ( 2 ) jest dokładnie tym, czego potrzebujemy, dlatego udowodniliśmy formułę całkowitej wariancji ( 3 ) .(5)
var(YE[YX])=E[var(YX)].
(2)(3)
Dilip Sarwate
źródło
YE(Y|X)var(YE(Y|X))=E[YE(Y|X)]2Evar(Y|X)=E[E((YE(Y|X))2|X)]=E[YE(Y|X)]2
1
E[(YE[Y|X])2]
1
Dilip, wielu probabilistów poprawnie interpretowałoby równanie @ mpiktas jako zapisane; dodatkowy zestaw nawiasów jest często pomijany. Być może moje oczy mnie oszukują, ale myślę, że jego notacja jest spójna przez cały czas. Jednak chętnie pomogę naprawić problemy, jeśli jest to pożądane. :-)
kardynał
EXEXX, Zawsze mam wątpliwości miX2), zwłaszcza że PEMDAS nic o tym nie mówi. Czy oczekiwanie ma pierwszeństwo przed potęgowaniem, czy nie? Myślę, że jestem przyzwyczajony do tego, że operator oczekiwań ma zastosowanie do wszystkiego w nawiasach kwadratowych. Proszę nie edytować komentarza m [iktas, ale jeśli chcesz usunąć wszystko w tym wątku z „Przypadkowo” w moim poprzednim komentarzu, proszę śmiało.
Dilip Sarwate
Przepraszam, @Dilip. Nie chciałem sugerować, że nie rozumiesz; Wiedziałem, że masz! Zgadzam się również, że notacja może nadawać się do dwuznaczności i dobrze jest je wskazać, kiedy się pojawią! Miałem na myśli to, że pomyślałem o drugim równaniu w komentarzu (tj.vzar) wyjaśnił konwencję, która była stosowana odtąd. :-)
kardynał
2

Komunikat:

Twierdzenie Pitagorasa mówi o dowolnych elementach T.1 i T.2) przestrzeni produktu wewnętrznego ze skończonymi normami, takimi jak T.1,T.2)=0,

(1)||T.1+T.2)||2)=||T.1||2)+||T.2)||2).
Innymi słowy, dla wektorów ortogonalnych kwadratowa długość sumy jest sumą kwadratów długości.

Nasz przypadek:

W naszym przypadku T.1=mi(Y|X) i T.2)=Y-mi[Y|X] are random variables, the squared norm is ||Ti||2=E[Ti2] and the inner product T1,T2=E[T1T2]. Translating (1) into statistical language gives us:

(2)E[Y2]=E[{E(Y|X)}2]+E[(YE[Y|X])2],
because E[T1T2]=Cov(T1,T2)=0. We can make this look more like your stated Law of Total Variance if we change (2) by...
  1. Subtract (E[Y])2 from both sides, making the left hand side Var[Y],

  2. Noting on the right hand side that E[{E(Y|X)}2](E[Y])2=Var(E[Y|X]),

  3. Noting that E[(YE[Y|X])2]=E[E{(YE[Y|X])2}|X]=E[Var(Y|X)].

For details about these three bullet points see @DilipSarwate's post. He explains this all in much more detail than I do.

Taylor
źródło