Intuicyjne wyjaśnienie terminu w wariancie estymatora najmniejszych kwadratów

18

Jeśli ma pełną pozycję, istnieje odwrotność i otrzymujemy oszacowanie najmniejszych kwadratów: iXXTX

β^=(XTX)1XY
Var(β^)=σ2(XTX)1

Jak intuicyjnie wyjaśnić we wzorze wariancji? Technika wyprowadzania jest dla mnie jasna.(XTX)1

Daniel Jefimow
źródło
3
Możesz dodać notatkę, aby wskazać, że podałeś wzór na macierz wariancji-kowariancji - zakładając, żeβ^β^ jest szacowana przez OLS - jest prawidłowy tylko wtedy, gdy warunki Gaussa Twierdzenie Markowa jest spełnione, w szczególności tylko wtedy, gdy macierz wariancji-kowariancji składników błędów jest dana przezσ2In, gdzieInjestmacierzą tożsamościn×n, anjest liczbą rzędówX(iY). Formuła podasz jestniepoprawna dla bardziej ogólnym przypadku błędów non-sferycznych.
Mico

Odpowiedzi:

13

Rozważ prostą regresję bez stałego terminu i gdzie pojedynczy regresor jest wyśrodkowany na średniej próbki. Zatem XX jest ( n razy) jego wariancją próbki, a (XX)1 jest odwrotną. Zatem im wyższa wariancja = zmienność w regresorze, tym mniejsza wariancja estymatora współczynnika: im większa zmienność mamy w zmiennej objaśniającej, tym dokładniej możemy oszacować nieznany współczynnik.

Dlaczego? Ponieważ im bardziej regresor jest zróżnicowany, tym więcej informacji zawiera. Gdy regresorów jest wiele, to uogólnia się na odwrotność ich macierzy wariancji-kowariancji, która bierze również pod uwagę współzmienność regresorów. W skrajnym przypadku, gdy jest przekątna, precyzja dla każdego oszacowanego współczynnika zależy tylko od wariancji / zmienności powiązanego regresora (biorąc pod uwagę wariancję składnika błędu).XX

Alecos Papadopoulos
źródło
Czy możesz odnieść ten argument do faktu, że odwrotność macierzy wariancji-kowariancji daje częściową korelację ?
Heisenberg
5

Prostym sposobem oglądania jest analog macierzowy (wielowymiarowy) analog σ 2σ2(XTX)1 , co stanowi wariancję współczynnika nachylenia w prostej regresji OLS. Można nawet dostaćσ2σ2)ja=1n(Xja-X¯)2) dla tej wariancji przez pominięcie przecięcia w modelu, tj. Przez wykonanie regresji przez początek.σ2)ja=1nXja2)

Z jednej z tych formuł można zauważyć, że większa zmienność zmiennej predykcyjnej na ogół doprowadzi do dokładniejszego oszacowania jej współczynnika. Jest to pomysł często wykorzystywany w projektowaniu eksperymentów, w którym wybierając wartości predyktorów (nieprzypadkowych), próbuje się uczynić wyznacznik tak dużym, jak to możliwe, przy czym wyznacznik jest miarą zmienności.(XT.X)

JohnK
źródło
2

Czy transformacja liniowa losowej zmiennej Gaussa pomaga? Stosując zasadę, że jeśli , to A x + b N ( A μ + b , A T Σ A ) .xN(μ,Σ)Ax+b N(Aμ+b,ATΣA)

Zakładając, że jest modelem bazowym i ϵ N ( 0 , σ 2 ) .Y=Xβ+ϵϵN(0,σ2)

YN(Xβ,σ2)XTYN(XTXβ,Xσ2XT)(XTX)1XTYN[β,(XTX)1σ2]

Tak jest po prostu skomplikowane macierz skalowania, który przemienia dystrybucja Y .(XTX)1XTY

Mam nadzieję, że było to pomocne.

kedarps
źródło
Nic w wyprowadzeniu estymatora OLS i jego wariancji nie wymaga normalności warunków błędu. Wszystko, co jest wymagane, to i E ( ε ε T ) = σ 2 I n . (Oczywiście, normalność jest wymagana, aby pokazać, że OLS osiąga dolną granicę Cramer-Rao, ale nie o to chodzi w delegowaniu OP, prawda?)E(ε)=0E(εεT)=σ2In
Mico
2

Przyjmę inne podejście do rozwijania intuicji, która leży u podstaw formuły . Opracowując intuicję dla modelu regresji wielokrotnej, warto wziąć pod uwagę dwuwymiarowy model regresji liniowej,mianowicie. ,yi=α+βxi+εi,Varβ^=σ2(XX)1α + β x i jest często nazywany deterministyczną wkład y I i ε i nazywa się post stochastycznych. Wyrażony w kategoriach odchyleń od średnich próbek ( ˉ x , ˉ y ) , model ten można również zapisać jako ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi(x¯,y¯)
(yiy¯)=β(xix¯)+(εiε¯),i=1,,n.

Aby pomóc w rozwijaniu intuicji, założymy, że spełnione są najprostsze założenia Gaussa-Markowa: niestochastyczne, n i = 1 ( x i - ˉ x ) 2 > 0 dla wszystkich n oraz ε iiid ( 0 , σ 2 ) dla wszystkich i = 1 , , n . Jak już dobrze wiesz, warunki te gwarantują, że Varxii=1n(xix¯)2>0nεiiid(0,σ2)i=1,,n gdzie Var

Varβ^=1nσ2(Varx)1,
jest wariancją próbki x . Słowami, to wzór przedstawia trzy żądania „Wariancja p jest odwrotnie proporcjonalna do wielkości próbki n , jest wprost proporcjonalna do wariancji ε i jest odwrotnie proporcjonalna do wariancji X ”.Varxxβ^nεx

Dlaczego warto podwojenie wielkość próby, ceteris paribus , bo wariancja beta być cięte w połowie? Wynik ten jest ściśle związany z założeniem iid zastosowanym do ε : Ponieważ zakłada się, że poszczególne błędy są iid, każda obserwacja powinna być traktowana ex ante jako równie pouczająca. I podwojenie liczby obserwacji podwaja ilość informacji na temat parametrów opisujących (zakłada liniowy) związek między x i y . Posiadanie dwukrotnie większej ilości informacji zmniejsza o połowę niepewność parametrów. Podobnie powinno być łatwo rozwinąć intuicję, dlaczego podwajaćβ^εxy podwaja również wariancji beta .σ2β^

Kolej Chodźmy więc do głównego pytania, co jest o rozwijanie intuicji do twierdzenia, że wariancja beta jest odwrotnie proporcjonalna do wariancji x . Aby sformalizować pojęcia, rozważmy teraz dwa osobne dwuwymiarowe modele regresji liniowej, zwane Model ( 1 ) i Model ( 2 ) . Zakładamy, że oba modele spełniają założenia najprostszej postaci twierdzenia Gaussa-Markowa i że modele dzielą dokładnie takie same wartości α , β , n i σ 2 . Przy tych założeniach łatwo jest wykazać, że Eβ^x(1)(2)αβnσ2; słowami, oba estymatory są obiektywne. Co najważniejsze, założymy również, że podczas gdy ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ x ,VarEβ^(1)=Eβ^(2)=βx¯(1)=x¯(2)=x¯ . Bez utraty ogólności załóżmy, że VarVarx(1)Varx(2) . Który estymatorem beta będzie miał mniejszą wariancję? Innymi słowy, będzie pVarx(1)>Varx(2)β^ lub ββ^(1) być bliżej,średnio, doβ? Z wcześniejszej dyskusji mamyVarβ^(2)βdlak=1,2. PonieważVarVarβ^(k)=1nσ2/Varx(k))k=1,2 z założenia wynika, że VarVarx(1)>Varx(2) . Jaka jest zatem intuicja tego wyniku?Varβ^(1)<Varβ^(2)

Ponieważ z założenia Varx(1)>Varx(2)xi(1)x¯xi(2)xix¯dxVarx(1)>Varx(2) implies that dx(1)>dx(2). The bivariate linear regression model, expressed in deviations from means, states that dy=βdx(1) for Model (1) and dy=βdx(2) for Model (2). If β0, this means that the deterministic component of Model (1), βdx(1), has a greater influence on dy than does the deterministic component of Model (2), βdx(2). Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that β(1)=β(2)=β. Since Model (1) imparts more information about the contribution of the deterministic component of y than does Model (2), it follows that the precision with which the deterministic contribution can be estimated is greater for Model (1) than is the case for Model (2). The converse of greater precision is a lower variance of the point estimate of β.

Uogólnienie intuicji uzyskanej dzięki badaniu prostego modelu regresji na ogólny model regresji wielokrotnej liniowej jest dość proste. Główną komplikacją jest to, że zamiast porównywać wariancje skalarne, konieczne jest porównanie „rozmiaru” macierzy wariancji-kowariancji. Dobra znajomość wyznaczników, śladów i wartości własnych rzeczywistych macierzy symetrycznych jest w tym momencie bardzo przydatna :-)

Mico
źródło
1

Say we have n observations (or sample size) and p parameters.

The covariance matrix Var(β^) of the estimated parameters β^1,β^2 etc. is a representation of the accuracy of the estimated parameters.

If in an ideal world the data could be perfectly described by the model, then the noise will be σ2=0. Now, the diagonal entries of Var(β^) correspond to Var(β1^),Var(β2^) etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.

In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of XTX will be higher, as the number of columns of XT is n and the number of rows of X is n, and each entry of XTX is a sum of n product pairs. The absolute value of the entries of the inverse (XTX)1 will be lower.

Hence, even if there is a lot of noise, we can still reach good estimates βi^ of the parameters if we increase the sample size n.

I hope this helps.

Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.

Dilly Minch
źródło
1

Opiera się to na odpowiedzi @Alecos Papadopuolos.

Przypomnij sobie, że wynik regresji metodą najmniejszych kwadratów nie zależy od jednostek miary twoich zmiennych. Załóżmy, że twoja zmienna X jest miarą długości podaną w calach. Następnie przeskalowanie X, powiedzmy przez pomnożenie przez 2,54, aby zmienić jednostkę na centymetry, nie ma istotnego wpływu na rzeczy. Po ponownym zamontowaniu modelu nowa ocena regresji będzie starą oceną podzieloną przez 2,54.

The XX macierz jest wariancją X, a zatem odzwierciedla skalę pomiaru X. Jeśli zmienisz skalę, musisz to odzwierciedlić w swojej ocenie βI odbywa się to poprzez pomnożenie przez odwrotność zXX.

Hong Ooi
źródło