Zakładam, że nie masz nic przeciwko traktowaniu trójkąta pod kątem prostym, co oznacza, że E[Y∣X] i Y−E[Y∣X] są nieskorelowanymi zmiennymi losowymi. W przypadku nieskorelowanych zmiennych losowych A i B ,
var(A+B)=var(A)+var(B),(1)
a więc, jeśli zestaw
A=Y−E[Y∣X] i
B=E[Y∣X] więc
A+B=Y , otrzymujemy to
var(Y)=var(Y−E[Y∣X])+var(E[Y∣X]).(2)
Pozostaje pokazać, że
var(Y−E[Y∣X]) jest taki sam jak
E[var(Y∣X)] dzięki czemu możemy zmienić stan
(2) jako
var(Y)=E[var(Y∣X)]+var(E[Y∣X])(3)
która jest formułą całkowitej wariancji.
Dobrze wiadomo, że oczekiwana wartość zmiennej losowej wynosi E [ Y ] , to znaczy E [ E [ Y ∣ X ] ] = E [ Y ] . Widzimy więc, że
E [ A ] = E [ Y - E [ Y ∣ X ] ] = E [ Y ] - E [ E [E[Y∣X]E[Y]E[E[Y∣X]]=E[Y]
z czego wynika, że var ( A ) = E [ A 2 ] , to znaczy
var ( Y - E [ Y ∣ X ] ) = E [ ( Y - E [ Y ∣ X ] ) 2 ] .
Niech C oznacza zmienną losową ( Y - E [ Y
E[A]=E[Y−E[Y∣X]]=E[Y]−E[E[Y∣X]]=0,
var(A)=E[A2]var(Y−E[Y∣X])=E[(Y−E[Y∣X])2].(4)
C , abyśmy mogli napisać, że
var ( Y - E [ Y ∣ X ] ) = E [ C ] .
Ale
E [ C ] = E [ E [ C ∣ X ] ] gdzie
E [ C ∣ X ] = E [ ( Y - E [ Y ∣ X ] )(Y−E[Y∣X])2var(Y−E[Y∣X])=E[C].(5)
E[C]=E[E[C∣X]]
Teraz,
biorąc pod uwagę,że
X = x , rozkład warunkowy
Y ma średnią
E [ Y ∣ X = x ],
a więc
E [ ( Y - E [ Y ∣ X = x ] ) 2 | X = x ] = var ( Y ∣ X = x ) .
Innymi słowy,
EE[C∣X]=E[(Y−E[Y∣X])2∣∣X].X=xYE[Y∣X=x]E[(Y−E[Y∣X=x])2∣∣X=x]=var(Y∣X=x).
więc
zmienna losowa E [ C ∣ X ] jest po prostu
var ( Y ∣ X ) . Stąd
E [ C ] = E [ E [ C ∣ X ] ] = E [ var ( Y ∣ X ) ] ,E[C∣X=x]=var(Y∣X=x) E[C∣X]var(Y∣X)E[C]=E[E[C∣X]]=E[var(Y∣X)],(6)
co po podstawieniu do
pokazuje, że
var ( Y - E [ Y ∣ X ] ) = E [ var ( Y ∣ X ) ] .
To sprawia, że prawa strona
( 2 ) jest dokładnie tym, czego potrzebujemy, dlatego udowodniliśmy formułę całkowitej wariancji
( 3 ) .
(5)var(Y−E[Y∣X])=E[var(Y∣X)].
(2)(3)
Komunikat:
Twierdzenie Pitagorasa mówi o dowolnych elementachT.1 i T.2) przestrzeni produktu wewnętrznego ze skończonymi normami, takimi jak ⟨ T1, T2)⟩ = 0 ,
Nasz przypadek:
W naszym przypadkuT.1= E( Y| X) i T.2)= Y- E[ Y| X] are random variables, the squared norm is ||Ti||2=E[T2i] and the inner product ⟨T1,T2⟩=E[T1T2] . Translating (1) into statistical language gives us:
Subtract(E[Y])2 from both sides, making the left hand side Var[Y] ,
Noting on the right hand side thatE[{E(Y|X)}2]−(E[Y])2=Var(E[Y|X]) ,
Noting thatE[(Y−E[Y|X])2]=E[E{(Y−E[Y|X])2}|X]=E[Var(Y|X)] .
For details about these three bullet points see @DilipSarwate's post. He explains this all in much more detail than I do.
źródło