Jeśli ma pełną pozycję, istnieje odwrotność i otrzymujemy oszacowanie najmniejszych kwadratów: i
Jak intuicyjnie wyjaśnić we wzorze wariancji? Technika wyprowadzania jest dla mnie jasna.
regression
variance
least-squares
Daniel Jefimow
źródło
źródło
Odpowiedzi:
Rozważ prostą regresję bez stałego terminu i gdzie pojedynczy regresor jest wyśrodkowany na średniej próbki. ZatemX′X jest ( n razy) jego wariancją próbki, a (X′X)−1 jest odwrotną. Zatem im wyższa wariancja = zmienność w regresorze, tym mniejsza wariancja estymatora współczynnika: im większa zmienność mamy w zmiennej objaśniającej, tym dokładniej możemy oszacować nieznany współczynnik.
Dlaczego? Ponieważ im bardziej regresor jest zróżnicowany, tym więcej informacji zawiera. Gdy regresorów jest wiele, to uogólnia się na odwrotność ich macierzy wariancji-kowariancji, która bierze również pod uwagę współzmienność regresorów. W skrajnym przypadku, gdy jest przekątna, precyzja dla każdego oszacowanego współczynnika zależy tylko od wariancji / zmienności powiązanego regresora (biorąc pod uwagę wariancję składnika błędu).X′X
źródło
Prostym sposobem oglądania jest analog macierzowy (wielowymiarowy) analog σ 2σ2(XTX)−1 , co stanowi wariancję współczynnika nachylenia w prostej regresji OLS. Można nawet dostaćσ2σ2)∑ni = 1( Xja- X¯)2) dla tej wariancji przez pominięcie przecięcia w modelu, tj. Przez wykonanie regresji przez początek.σ2)∑ni = 1X2)ja
Z jednej z tych formuł można zauważyć, że większa zmienność zmiennej predykcyjnej na ogół doprowadzi do dokładniejszego oszacowania jej współczynnika. Jest to pomysł często wykorzystywany w projektowaniu eksperymentów, w którym wybierając wartości predyktorów (nieprzypadkowych), próbuje się uczynić wyznacznik tak dużym, jak to możliwe, przy czym wyznacznik jest miarą zmienności.( XT.X )
źródło
Czy transformacja liniowa losowej zmiennej Gaussa pomaga? Stosując zasadę, że jeśli , to A x + b ∼ N ( A μ + b , A T Σ A ) .x ∼ N(μ,Σ) Ax+b ∼N(Aμ+b,ATΣA)
Zakładając, że jest modelem bazowym i ϵ ∼ N ( 0 , σ 2 ) .Y=Xβ+ϵ ϵ∼N(0,σ2)
Tak jest po prostu skomplikowane macierz skalowania, który przemienia dystrybucja Y .(XTX)−1XT Y
Mam nadzieję, że było to pomocne.
źródło
Przyjmę inne podejście do rozwijania intuicji, która leży u podstaw formuły . Opracowując intuicję dla modelu regresji wielokrotnej, warto wziąć pod uwagę dwuwymiarowy model regresji liniowej,mianowicie. ,yi=α+βxi+εi,Varβ^=σ2(X′X)−1 α + β x i jest często nazywany deterministyczną wkład y I i ε i nazywa się post stochastycznych. Wyrażony w kategoriach odchyleń od średnich próbek ( ˉ x , ˉ y ) , model ten można również zapisać jako ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε
Aby pomóc w rozwijaniu intuicji, założymy, że spełnione są najprostsze założenia Gaussa-Markowa: niestochastyczne, ∑ n i = 1 ( x i - ˉ x ) 2 > 0 dla wszystkich n oraz ε i ∼ iid ( 0 , σ 2 ) dla wszystkich i = 1 , … , n . Jak już dobrze wiesz, warunki te gwarantują, że Varxi ∑ni=1(xi−x¯)2>0 n εi∼iid(0,σ2) i=1,…,n gdzie Var
Dlaczego warto podwojenie wielkość próby, ceteris paribus , bo wariancja beta być cięte w połowie? Wynik ten jest ściśle związany z założeniem iid zastosowanym do ε : Ponieważ zakłada się, że poszczególne błędy są iid, każda obserwacja powinna być traktowana ex ante jako równie pouczająca. I podwojenie liczby obserwacji podwaja ilość informacji na temat parametrów opisujących (zakłada liniowy) związek między x i y . Posiadanie dwukrotnie większej ilości informacji zmniejsza o połowę niepewność parametrów. Podobnie powinno być łatwo rozwinąć intuicję, dlaczego podwajaćβ^ ε x y podwaja również wariancji beta .σ2 β^
Kolej Chodźmy więc do głównego pytania, co jest o rozwijanie intuicji do twierdzenia, że wariancja beta jest odwrotnie proporcjonalna do wariancji x . Aby sformalizować pojęcia, rozważmy teraz dwa osobne dwuwymiarowe modele regresji liniowej, zwane Model ( 1 ) i Model ( 2 ) . Zakładamy, że oba modele spełniają założenia najprostszej postaci twierdzenia Gaussa-Markowa i że modele dzielą dokładnie takie same wartości α , β , n i σ 2 . Przy tych założeniach łatwo jest wykazać, że Eβ^ x (1) (2) α β n σ2 ; słowami, oba estymatory są obiektywne. Co najważniejsze, założymy również, że podczas gdy ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ x ,VarEβ^(1)=Eβ^(2)=β x¯(1)=x¯(2)=x¯ . Bez utraty ogólności załóżmy, że VarVarx(1)≠Varx(2) . Który estymatorem beta będzie miał mniejszą wariancję? Innymi słowy, będzie pVarx(1)>Varx(2) β^ lub ββ^(1) być bliżej,średnio, doβ? Z wcześniejszej dyskusji mamyVarβ^(2) β dlak=1,2. PonieważVarVarβ^(k)=1nσ2/Varx(k)) k=1,2 z założenia wynika, że VarVarx(1)>Varx(2) . Jaka jest zatem intuicja tego wyniku?Varβ^(1)<Varβ^(2)
Ponieważ z założeniaVarx(1)>Varx(2) x(1)i x¯ x(2)i xi x¯ dx Varx(1)>Varx(2) implies that d(1)x>d(2)x . The bivariate linear regression model, expressed in deviations from means, states that dy=βd(1)x for Model (1) and dy=βd(2)x for Model (2) . If β≠0 , this means that the deterministic component of Model (1) , βd(1)x , has a greater influence on dy than does the deterministic component of Model (2) , βd(2)x . Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that β(1)=β(2)=β . Since Model (1) imparts more information about the contribution of the deterministic component of y than does Model (2) , it follows that the precision with which the deterministic contribution can be estimated is greater for Model (1) than is the case for Model (2) . The converse of greater precision is a lower variance of the point estimate of β .
Uogólnienie intuicji uzyskanej dzięki badaniu prostego modelu regresji na ogólny model regresji wielokrotnej liniowej jest dość proste. Główną komplikacją jest to, że zamiast porównywać wariancje skalarne, konieczne jest porównanie „rozmiaru” macierzy wariancji-kowariancji. Dobra znajomość wyznaczników, śladów i wartości własnych rzeczywistych macierzy symetrycznych jest w tym momencie bardzo przydatna :-)
źródło
Say we haven observations (or sample size) and p parameters.
The covariance matrixVar(β^) of the estimated parameters β^1,β^2 etc. is a representation of the accuracy of the estimated parameters.
If in an ideal world the data could be perfectly described by the model, then the noise will beσ2=0 . Now, the diagonal entries of Var(β^) correspond to Var(β1^),Var(β2^) etc.
The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.
In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries ofXTX will be higher, as the number of columns of XT is n and the number of rows of X is n , and each entry of XTX is a sum of n product pairs. The absolute value of the entries of the inverse (XTX)−1 will be lower.
Hence, even if there is a lot of noise, we can still reach good estimatesβi^ of the parameters if we increase the sample size n .
I hope this helps.
Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.
źródło
Opiera się to na odpowiedzi @Alecos Papadopuolos.
Przypomnij sobie, że wynik regresji metodą najmniejszych kwadratów nie zależy od jednostek miary twoich zmiennych. Załóżmy, że twoja zmienna X jest miarą długości podaną w calach. Następnie przeskalowanie X, powiedzmy przez pomnożenie przez 2,54, aby zmienić jednostkę na centymetry, nie ma istotnego wpływu na rzeczy. Po ponownym zamontowaniu modelu nowa ocena regresji będzie starą oceną podzieloną przez 2,54.
TheX′X macierz jest wariancją X, a zatem odzwierciedla skalę pomiaru X. Jeśli zmienisz skalę, musisz to odzwierciedlić w swojej ocenie β I odbywa się to poprzez pomnożenie przez odwrotność zX′X .
źródło