Intuicyjne wyjaśnienie terminu w wariancie estymatora najmniejszych kwadratów

18

Jeśli ma pełną pozycję, istnieje odwrotność i otrzymujemy oszacowanie najmniejszych kwadratów: i $X$ $X^TX$

\hat{β} = (X^{T} X)^{- 1} X Y

$\hat\beta = (X^TX)^{-1}XY$

Var (\hat{β}) = σ^{2} (X^{T} X)^{- 1}

$\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1}$

Jak intuicyjnie wyjaśnić we wzorze wariancji? Technika wyprowadzania jest dla mnie jasna. $(X^TX)^{-1}$

regression variance least-squares Daniel Jefimow
źródło

3

Możesz dodać notatkę, aby wskazać, że podałeś wzór na macierz wariancji-kowariancji - zakładając, że

\hat{β}

$\hat{\beta}$

\hat{β}

$\hat{\beta}$ jest szacowana przez OLS - jest prawidłowy tylko wtedy, gdy warunki Gaussa Twierdzenie Markowa jest spełnione, w szczególności tylko wtedy, gdy macierz wariancji-kowariancji składników błędów jest dana przez

σ^{2} I_{n}

$\sigma^2 I_n$ , gdzie

I_{n}

$I_n$ jestmacierzą tożsamości

n \times n

$n\times n$ , a

n

$n$ jest liczbą rzędów

X

$X$ (i

Y

$Y$ ). Formuła podasz jestniepoprawna dla bardziej ogólnym przypadku błędów non-sferycznych.

Mico

13

Rozważ prostą regresję bez stałego terminu i gdzie pojedynczy regresor jest wyśrodkowany na średniej próbki. Zatem $X'X$ jest ( $n$ razy) jego wariancją próbki, a $(X'X)^{-1}$ jest odwrotną. Zatem im wyższa wariancja = zmienność w regresorze, tym mniejsza wariancja estymatora współczynnika: im większa zmienność mamy w zmiennej objaśniającej, tym dokładniej możemy oszacować nieznany współczynnik.

Dlaczego? Ponieważ im bardziej regresor jest zróżnicowany, tym więcej informacji zawiera. Gdy regresorów jest wiele, to uogólnia się na odwrotność ich macierzy wariancji-kowariancji, która bierze również pod uwagę współzmienność regresorów. W skrajnym przypadku, gdy jest przekątna, precyzja dla każdego oszacowanego współczynnika zależy tylko od wariancji / zmienności powiązanego regresora (biorąc pod uwagę wariancję składnika błędu). $X'X$

Alecos Papadopoulos
źródło

Czy możesz odnieść ten argument do faktu, że odwrotność macierzy wariancji-kowariancji daje częściową korelację ?

Heisenberg

5

Prostym sposobem oglądania jest analog macierzowy (wielowymiarowy) analog $\sigma^2 \left(\mathbf{X}^{T} \mathbf{X} \right)^{-1}$ , co stanowi wariancję współczynnika nachylenia w prostej regresji OLS. Można nawet dostać $\frac{\sigma^2}{\sum_{i=1}^n \left(X_i-\bar{X}\right)^2}$ dla tej wariancji przez pominięcie przecięcia w modelu, tj. Przez wykonanie regresji przez początek. $\frac{\sigma^2}{\sum_{i=1}^n X_i^2}$

Z jednej z tych formuł można zauważyć, że większa zmienność zmiennej predykcyjnej na ogół doprowadzi do dokładniejszego oszacowania jej współczynnika. Jest to pomysł często wykorzystywany w projektowaniu eksperymentów, w którym wybierając wartości predyktorów (nieprzypadkowych), próbuje się uczynić wyznacznik tak dużym, jak to możliwe, przy czym wyznacznik jest miarą zmienności. $\left(\mathbf{X}^{T} \mathbf{X} \right)$

JohnK
źródło

2

Czy transformacja liniowa losowej zmiennej Gaussa pomaga? Stosując zasadę, że jeśli , to . $x \sim \mathcal{N}(\mu,\Sigma)$ $Ax + b ~ \sim \mathcal{N}(A\mu + b,A^T\Sigma A)$

Zakładając, że jest modelem bazowym i . $Y = X\beta + \epsilon$ $\epsilon \sim \mathcal{N}(0, \sigma^2)$

∴ Y \sim N (X β, σ^{2}) X^{T} Y \sim N (X^{T} X β, X σ^{2} X^{T}) (X^{T} X)^{- 1} X^{T} Y \sim N [β, (X^{T} X)^{- 1} σ^{2}]

$\therefore Y \sim \mathcal{N}(X\beta,\sigma^2)\\ X^TY \sim \mathcal{N}(X^TX\beta, X\sigma^2 X^T)\\ (X^TX)^{-1}X^TY \sim \mathcal{N}[\beta,(X^TX)^{-1} \sigma^2]$

Tak jest po prostu skomplikowane macierz skalowania, który przemienia dystrybucja . $(X^TX)^{-1}X^T$ $Y$

Mam nadzieję, że było to pomocne.

kedarps
źródło

Nic w wyprowadzeniu estymatora OLS i jego wariancji nie wymaga normalności warunków błędu. Wszystko, co jest wymagane, to

i

. (Oczywiście, normalność jest wymagana, aby pokazać, że OLS osiąga dolną granicę Cramer-Rao, ale nie o to chodzi w delegowaniu OP, prawda?)

E (ε) = 0

$E(\varepsilon)=0$

E (ε ε^{T}) = σ^{2} I_{n}

$E(\varepsilon\varepsilon^T)=\sigma^2 I_n$

Mico

2

Przyjmę inne podejście do rozwijania intuicji, która leży u podstaw formuły . Opracowując intuicję dla modelu regresji wielokrotnej, warto wziąć pod uwagę dwuwymiarowy model regresji liniowej,mianowicie. , $\text{Var}\,\hat{\beta}=\sigma^2 (X'X)^{-1}$ jest często nazywany deterministyczną wkład i nazywa się post stochastycznych. Wyrażony w kategoriach odchyleń od średnich próbek , model ten można również zapisać jako

y_{i} = α + β x_{i} + ε_{i}, i = 1, \dots, n .

$y_i=\alpha+\beta x_i + \varepsilon_i, \quad i=1,\ldots,n.$

α + β x_{i}

$\alpha+\beta x_i$

y_{i}

$y_i$

ε_{i}

$\varepsilon_i$

(\bar{x}, \bar{y})

$(\bar{x},\bar{y})$

(y_{i} - \bar{y}) = β (x_{i} - \bar{x}) + (ε_{i} - \bar{ε}), i = 1, \dots, n .

$(y_i-\bar{y}) = \beta(x_i-\bar{x})+(\varepsilon_i-\bar{\varepsilon}), \quad i=1,\ldots,n.$

Aby pomóc w rozwijaniu intuicji, założymy, że spełnione są najprostsze założenia Gaussa-Markowa: niestochastyczne, dla wszystkich oraz dla wszystkich . Jak już dobrze wiesz, warunki te gwarantują, że $x_i$ $\sum_{i=1}^n(x_i-\bar{x})^2>0$ $n$ $\varepsilon_i \sim \text{iid}(0,\sigma^2)$ $i=1,\ldots,n$ gdzie

Var \hat{β} = \frac{1}{n} σ^{2} (Var x)^{- 1},

$\text{Var}\,\hat{\beta}=\tfrac{1}{n}\sigma^2(\text{Var}\,x)^{-1}\text{,}$

jest wariancją próbki

. Słowami, to wzór przedstawia trzy żądania „Wariancja

jest odwrotnie proporcjonalna do wielkości próbki

, jest wprost proporcjonalna do wariancji

i jest odwrotnie proporcjonalna do wariancji

”.

Var x

$\text{Var}\,x$

x

$x$

\hat{β}

$\hat{\beta}$

n

$n$

ε

$\varepsilon$

x

$x$

Dlaczego warto podwojenie wielkość próby, ceteris paribus , bo wariancja być cięte w połowie? Wynik ten jest ściśle związany z założeniem iid zastosowanym do : Ponieważ zakłada się, że poszczególne błędy są iid, każda obserwacja powinna być traktowana ex ante jako równie pouczająca. I podwojenie liczby obserwacji podwaja ilość informacji na temat parametrów opisujących (zakłada liniowy) związek między i . Posiadanie dwukrotnie większej ilości informacji zmniejsza o połowę niepewność parametrów. Podobnie powinno być łatwo rozwinąć intuicję, dlaczego podwajać $\hat{\beta}$ $\varepsilon$ $x$ $y$ podwaja również wariancji . $\sigma^2$ $\hat{\beta}$

Kolej Chodźmy więc do głównego pytania, co jest o rozwijanie intuicji do twierdzenia, że wariancja jest odwrotnie proporcjonalna do wariancji . Aby sformalizować pojęcia, rozważmy teraz dwa osobne dwuwymiarowe modele regresji liniowej, zwane Model i Model . Zakładamy, że oba modele spełniają założenia najprostszej postaci twierdzenia Gaussa-Markowa i że modele dzielą dokładnie takie same wartości , , i . Przy tych założeniach łatwo jest wykazać, że $\hat{\beta}$ $x$ $(1)$ $(2)$ $\alpha$ $\beta$ $n$ $\sigma^2$ ; słowami, oba estymatory są obiektywne. Co najważniejsze, założymy również, że podczas gdy , $\text{E}\,\hat{\beta}{}^{(1)}=\text{E}\,\hat{\beta}{}^{(2)}=\beta$ $\bar{x}^{(1)}=\bar{x}^{(2)}=\bar{x}$ . Bez utraty ogólności załóżmy, że $\text{Var}\,x^{(1)}\ne \text{Var}\,x^{(2)}$ . Który estymatorem będzie miał mniejszą wariancję? Innymi słowy, będzie $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $\hat{\beta}$ lub $\hat{\beta}{}^{(1)}$ być bliżej,średnio, do? Z wcześniejszej dyskusji mamy $\hat{\beta}{}^{(2)}$ $\beta$ dla. Ponieważ $\text{Var}\,\hat{\beta} {}^{(k)} =\tfrac{1}{n}\sigma^2/\text{Var}\,x{}^{(k)})$ $k=1,2$ z założenia wynika, że $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ . Jaka jest zatem intuicja tego wyniku? $\text{Var}\,\hat{\beta}{}^{(1)} <\text{Var}\,\hat{\beta}{}^{(2)}$

Ponieważ z założenia $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $x_i^{(1)}$ $\bar{x}$ $x_i^{(2)}$ $x_i$ $\bar{x}$ $d_x$ $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ implies that $d_x^{(1)} >d_x^{(2)}$ . The bivariate linear regression model, expressed in deviations from means, states that $d_y = \beta d_x^{(1)}$ for Model $(1)$ and $d_y = \beta d_x^{(2)}$ for Model $(2)$ . If $\beta\ne0$ , this means that the deterministic component of Model $(1)$ , $\beta d_x^{(1)}$ , has a greater influence on $d_y$ than does the deterministic component of Model $(2)$ , $\beta d_x^{(2)}$ . Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that $\beta^{(1)}=\beta^{(2)}=\beta$ . Since Model $(1)$ imparts more information about the contribution of the deterministic component of $y$ than does Model $(2)$ , it follows that the precision with which the deterministic contribution can be estimated is greater for Model $(1)$ than is the case for Model $(2)$ . The converse of greater precision is a lower variance of the point estimate of $\beta$ .

Uogólnienie intuicji uzyskanej dzięki badaniu prostego modelu regresji na ogólny model regresji wielokrotnej liniowej jest dość proste. Główną komplikacją jest to, że zamiast porównywać wariancje skalarne, konieczne jest porównanie „rozmiaru” macierzy wariancji-kowariancji. Dobra znajomość wyznaczników, śladów i wartości własnych rzeczywistych macierzy symetrycznych jest w tym momencie bardzo przydatna :-)

Mico
źródło

1

Say we have $n$ observations (or sample size) and $p$ parameters.

The covariance matrix $\operatorname{Var}(\hat{\beta})$ of the estimated parameters $\hat{\beta}_1,\hat{\beta}_2$ etc. is a representation of the accuracy of the estimated parameters.

If in an ideal world the data could be perfectly described by the model, then the noise will be $\sigma^2= 0$ . Now, the diagonal entries of $\operatorname{Var}(\hat{\beta})$ correspond to $\operatorname{Var}(\hat{\beta_1}),\operatorname{Var}(\hat{\beta_2})$ etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.

In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of $X^TX$ will be higher, as the number of columns of $X^T$ is $n$ and the number of rows of $X$ is $n$ , and each entry of $X^TX$ is a sum of $n$ product pairs. The absolute value of the entries of the inverse $(X^TX)^{-1}$ will be lower.

Hence, even if there is a lot of noise, we can still reach good estimates $\hat{\beta_i}$ of the parameters if we increase the sample size $n$ .

I hope this helps.

Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.

Dilly Minch
źródło

1

Opiera się to na odpowiedzi @Alecos Papadopuolos.

Przypomnij sobie, że wynik regresji metodą najmniejszych kwadratów nie zależy od jednostek miary twoich zmiennych. Załóżmy, że twoja zmienna X jest miarą długości podaną w calach. Następnie przeskalowanie X, powiedzmy przez pomnożenie przez 2,54, aby zmienić jednostkę na centymetry, nie ma istotnego wpływu na rzeczy. Po ponownym zamontowaniu modelu nowa ocena regresji będzie starą oceną podzieloną przez 2,54.

The $X'X$ macierz jest wariancją X, a zatem odzwierciedla skalę pomiaru X. Jeśli zmienisz skalę, musisz to odzwierciedlić w swojej ocenie $\beta$ I odbywa się to poprzez pomnożenie przez odwrotność z $X'X$ .

Hong Ooi
źródło

Intuicyjne wyjaśnienie terminu w wariancie estymatora najmniejszych kwadratów

Odpowiedzi: