Jak uzyskać estymator najmniejszych kwadratów dla wielokrotnej regresji liniowej?

30

W przypadku prostej regresji liniowej można uzyskać estymator najmniejszych kwadratów tak, że nie musisz znać aby oszacować $y=\beta_0+\beta_1x$ $\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}$ $\hat\beta_0$ $\hat\beta_1$

Załóżmy, że mam $y=\beta_1x_1+\beta_2x_2$ , jak uzyskać $\hat\beta_1$ bez szacowania $\hat\beta_2$ ? czy to nie jest możliwe?

regression multiple-regression generalized-linear-model linear-model Sabre CN
źródło

1

Możesz pominąć jedną ze zmiennych i nadal uzyskać obiektywne oszacowanie drugiej, jeśli są one niezależne.

david25272

51

Wyprowadzenie w notacji macierzowej

Począwszy od $y= Xb +\epsilon$ , co tak naprawdę jest takie samo jak

$\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{bmatrix} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1K} \\ x_{21} & x_{22} & \cdots & x_{2K} \\ \vdots & \ddots & \ddots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{NK} \end{bmatrix} * \begin{bmatrix} b_{1} \\ b_{2} \\ \vdots \\ b_{K} \end{bmatrix} + \begin{bmatrix} \epsilon_{1} \\ \epsilon_{2} \\ \vdots \\ \epsilon_{N} \end{bmatrix}$

wszystko sprowadza się do minimalizacji $e'e$ :

$\epsilon'\epsilon = \begin{bmatrix} e_{1} & e_{2} & \cdots & e_{N} \\ \end{bmatrix} \begin{bmatrix} e_{1} \\ e_{2} \\ \vdots \\ e_{N} \end{bmatrix} = \sum_{i=1}^{N}e_{i}^{2}$

Minimalizacja $e'e'$ daje nam:

$min_{b}$ $e'e = (y-Xb)'(y-Xb)$

$min_{b}$ $e'e = y'y - 2b'X'y + b'X'Xb$

$\frac{\partial(e'e)}{\partial b} = -2X'y + 2X'Xb \stackrel{!}{=} 0$

$X'Xb=X'y$

$b=(X'X)^{-1}X'y$

Ostatnia rzecz matematyczna, warunek drugiego rzędu dla minimum wymaga, aby macierz była dodatnia. To wymaganie jest spełnione, jeśli ma pełną rangę. $X'X$ $X$

Dokładniejsze wyprowadzenie, które przechodzi przez wszystkie etapy w większym stopniu, można znaleźć pod http://economictheoryblog.com/2015/02/19/ols_estimator/

Andreas Dibiasi
źródło

3

To pochodzenie jest dokładnie tym, czego szukałem. Brak pomijanych kroków. Zaskakujące, jak trudno je znaleźć.

javadba

1

Czy w równaniu macierzowym drugie nie powinno *być +? Czy nie powinno być zamiast aby dopasować wymiary?

b_{K}

$b_K$

b_{N}

$b_N$

Alexis Olson,

Alexis Olson, masz rację! Zredagowałem swoją odpowiedź.

Andreas Dibiasi

13

Możliwe jest oszacowanie tylko jednego współczynnika w regresji wielokrotnej bez szacowania innych.

Oszacowanie jest uzyskiwane poprzez usunięcie efektów z innych zmiennych, a następnie regresję reszt względem reszt . Jest to wyjaśnione i zilustrowane. Jak dokładnie kontroluje się inne zmienne? i jak znormalizować (a) współczynnik regresji? . Piękno tego podejścia polega na tym, że nie wymaga rachunku różniczkowego, algebry liniowej, można go wizualizować za pomocą tylko dwuwymiarowej geometrii, jest stabilny numerycznie i wykorzystuje tylko jedną podstawową ideę regresji wielokrotnej: wyjęcie (lub „kontrolowanie”) ) skutki pojedynczej zmiennej. $\beta_1$ $x_2$ $y$ $x_1$

W niniejszym przypadku regresję wielokrotną można wykonać za pomocą trzech zwykłych kroków regresji:

Zresetuj na (bez stałego terminu!). Niech dopasowanie będzie . Szacunkowa wartość to $y$ $x_2$ $y = \alpha_{y,2}x_2 + \delta$ Dlatego reszty wynoszą Geometryczniejest tym, co pozostałopoodjęciujego rzutu na.
$α_{y, 2} = \frac{\sum_{i} y_{i} x_{2 i}}{\sum_{i} x_{2 i}^{2}} .$ $\alpha_{y,2} = \frac{\sum_i y_i x_{2i}}{\sum_i x_{2i}^2}.$ $δ = y - α_{y, 2} x_{2} .$ $\delta = y - \alpha_{y,2}x_2.$ $\delta$ $y$ $x_2$
Regresuj na (bez stałego wyrażenia). Niech dopasowanie będzie . Szacunkowa wartość to $x_1$ $x_2$ $x_1 = \alpha_{1,2}x_2 + \gamma$ Resztki wynosząGeometryczniejest pozostałością popoodjęciujego rzutu na.
$α_{1, 2} = \frac{\sum_{i} x_{1 i} x_{2 i}}{\sum_{i} x_{2 i}^{2}} .$ $\alpha_{1,2} = \frac{\sum_i x_{1i} x_{2i}}{\sum_i x_{2i}^2}.$ $γ = x_{1} - α_{1, 2} x_{2} .$ $\gamma = x_1 - \alpha_{1,2}x_2.$ $\gamma$ $x_1$ $x_2$
Zresetuj na (bez stałego członu). Oszacowanie to $\delta$ $\gamma$ Dopasowanie będzie. jest składnikiem(co oznaczazwyprowadzony) wkierunku (co oznaczazwyjęty).
${\hat{β}}_{1} = \frac{\sum_{i} δ_{i} γ_{i}}{\sum_{i} γ_{i}^{2}} .$ $\hat\beta_1 = \frac{\sum_i \delta_i \gamma_i}{\sum_i \gamma_i^2}.$ $\delta = \hat\beta_1 \gamma + \varepsilon$ $\hat\beta_1$ $\delta$ $y$ $x_2$ $\gamma$ $x_1$ $x_2$

Zauważ, że nie zostało oszacowane. $\beta_2$ Z łatwością można uzyskać z tego, co zostało do tej pory uzyskano (jak w zwykłym przypadku regresji można łatwo otrzymać z oszacowania nachylenia ). W o pozostałości na dwuwymiarowym regresji o oraz . $\hat\beta_0$ $\hat\beta_1$ $\varepsilon$ $y$ $x_1$ $x_2$

Równoległość ze zwykłą regresją jest silna: kroki (1) i (2) są analogami odejmowania średnich według zwykłego wzoru. Jeśli pozwolisz, by był wektorem jedności, w rzeczywistości odzyskasz zwykłą formułę. $x_2$

Uogólnia to w sposób oczywisty do regresji z więcej niż dwóch zmiennych do oceny , regres i niezależnie od wszystkich innych zmiennych, a następnie regresji ich pozostałości na siebie. W tym momencie nie oszacowano jeszcze żadnego z innych współczynników regresji wielokrotnej . $\hat\beta_1$ $y$ $x_1$ $y$

Whuber
źródło

1

Świetna odpowiedź, oto ogólne twierdzenie en.wikipedia.org/wiki/…

JohnK

4

Zwykłe oszacowanie najmniejszych kwadratów jest funkcją liniową zmiennej odpowiedzi $\beta$ . Mówiąc najprościej, OLS oszacowania współczynników, na „s, mogą być pisane tylko zmienną zależną ( ”) i zmiennych niezależnych ( „s). $\beta$ $Y_i$ $X_{ki}$

Aby wyjaśnić ten fakt ogólnym modelem regresji, musisz zrozumieć małą algebrę liniową. Załóżmy, że chcesz oszacować współczynniki w modelu regresji wielokrotnej, $(\beta_0, \beta_1, ...,\beta_k)$

Y_{i} = β_{0} + β_{1} X_{1 i} + . . . + β_{k} X_{k i} + ϵ_{i}

$Y_i = \beta_0+\beta_1X_{1i}+...+\beta_kX_{ki}+\epsilon_i$

gdzie dla . Matryca wzór to tabeli, w której każda z kolumn zawiera obserwacje zmienna zależna . Można znaleźć wiele wyjaśnień oraz pochodne tutaj o wzorze wykorzystano do obliczenia szacunkowej współczynników $\epsilon_i \overset{iid}{\sim} N(0,\sigma^2)$ $i=1,...,n$ $\mathbf{X}$ $n\times k$ $n$ $k^{th}$ $X_k$ , który jest $\boldsymbol{\hat{\beta}}=(\hat{\beta}_0, \hat{\beta}_1, ..., \hat{\beta}_k)$

\hat{β} = (X^{'} X)^{- 1} X^{'} Y

$\boldsymbol{\hat{\beta}}=(\mathbf{X}^\prime \mathbf{X})^{-1}\mathbf{X}^\prime \mathbf{Y}$

przy założeniu, że istnieje odwrotność . Oszacowane współczynniki są funkcjami danych, a nie innych oszacowanych współczynników. $(\mathbf{X}^\prime \mathbf{X})^{-1}$

caburke
źródło

y_{i} = β_{0} + β_{1} \bar{x} + β_{1} (x_{i} - \bar{x}) + e_{i}

$y_i=\beta_0+\beta_1\bar x+\beta_1(x_i-\bar x)+e_i$

X

$X$

(1, . . ., 1)

$(1,...,1)$

(x_{1} - \bar{x}, . . ., x_{n} - \bar{x})

$(x_1-\bar x,...,x_n-\bar x)$

\hat{β} = (X^{'} X)^{(} - 1) X^{'} Y

$\hat\beta=(X'X)^(-1)X'Y$

x_{1}

$x_1$

x_{2}

$x_2$

y = β_{1} e^{x_{1} t} + β_{2} e^{x_{2} t}

$y=\beta_1 e^{x_1t}+\beta_2 e^{x_2t}$

x_{1}^{'}

$x_1'$

x_{2}^{'}

$x_2'$

β

$\beta$

y

$y$

β

$\beta$

2

n \times k

$n \times k$

k \times n

$k \times n$

3

$\beta_0, \beta_1, \beta_2 ... \beta_n$

\hat{β} = (X^{'} X)^{- 1} X^{'} Y

$\hat{\beta} = (X'X)^{-1} X'Y$

$X$ $Y$

$e_i$ $i$

e_{i} = y_{i} - \hat{y_{i}}

$e_i = y_i - \hat{y_i}$

Całkowity błąd kwadratowy, który popełniamy, wynosi teraz:

\sum_{i = 1}^{n} e_{i}^{2} = \sum_{i = 1}^{n} (y_{i} - \hat{y_{i}})^{2}

$\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y_i})^2$

Ponieważ mamy model liniowy, wiemy, że:

\hat{y_{i}} = β_{0} + β_{1} x_{1, i} + β_{2} x_{2, i} + . . . + β_{n} x_{n, i}

$\hat{y_i} = \beta_0 + \beta_1 x_{1,i} + \beta_2 x_{2,i} + ... + \beta_n x_{n,i}$

Which can be rewritten in matrix notation as:

\hat{Y} = X β

$\hat{Y} = X\beta$

We know that

\sum_{i = 1}^{n} e_{i}^{2} = E^{'} E

$\sum_{i=1}^n e_i^2 = E'E$

We want to minimize the total square error, such that the following expression should be as small as possible

E^{'} E = (Y - \hat{Y})^{'} (Y - \hat{Y})

$E'E = (Y-\hat{Y})' (Y-\hat{Y})$

This is equal to:

E^{'} E = (Y - X β)^{'} (Y - X β)

$E'E = (Y-X\beta)' (Y-X\beta)$

The rewriting might seem confusing but it follows from linear algebra. Notice that the matrices behave similar to variables when we are multiplying them in some regards.

We want to find the values of $\beta$ such that this expression is as small as possible. We will need to differentiate and set the derivative equal to zero. We use the chain rule here.

\frac{d E^{'} E}{d β} = - 2 X^{'} Y + 2 X^{'} X β = 0

$\frac{dE'E}{d\beta} = - 2 X'Y + 2 X'X\beta = 0$

This gives:

X^{'} X β = X^{'} Y

$X'X\beta = X'Y$

Such that finally:

β = (X^{'} X)^{- 1} X^{'} Y

$\beta = (X'X)^{-1} X'Y$

So mathematically we seem to have found a solution. There is one problem though, and that is that $(X'X)^{-1}$ is very hard to calculate if the matrix $X$ is very very large. This might give numerical accuracy issues. Another way to find the optimal values for $\beta$ in this situation is to use a gradient descent type of method. The function that we want to optimize is unbounded and convex so we would also use a gradient method in practice if need be.

Vincent Warmerdam
źródło

except that you don't actually need to compute

(X^{'} X)^{- 1}

$(X'X)^{-1}$ ...

user603

valid point. one could also use the gram schmidt process, but I just wanted to remark that finding the optimal values for the

β

$\beta$ vector can also be done numerically because of the convexity.

Vincent Warmerdam

2

A simple derivation can be done just by using the geometric interpretation of LR.

Linear regression can be interpreted as the projection of $Y$ onto the column space $X$ . Thus, the error, $\hat{\epsilon}$ is orthogonal to the column space of $X$ .

Therefore, the inner product between $X'$ and the error must be 0, i.e.,

$<X', y-X\hat{\beta}> = 0$

$X'y - X'X\hat{\beta} = 0$

$X'y = X'X\hat{\beta}$

Which implies that,

$(X'X)^{-1}X'y = \hat{\beta}$ .

Now the same can be done by:

(1) Projecting $Y$ onto $X_2$ (error $\delta = Y-X_2 \hat{D}$ ), $\hat{D} = (X_2'X_2)^{-1}X_2'y$ ,

(2) Projecting $X_1$ onto $X_2$ (error $\gamma = X_1 - X_2 \hat{G}$ ), $\hat{G} = (X_1'X_1)^{-1}X_1X_2$ ,

and finally,

(3) Projecting $\delta$ onto $\gamma$ , $\hat{\beta}_1$

Dnaiel
źródło

Jak uzyskać estymator najmniejszych kwadratów dla wielokrotnej regresji liniowej?

Odpowiedzi: