Jak uzyskać estymator najmniejszych kwadratów dla wielokrotnej regresji liniowej?

30

W przypadku prostej regresji liniowej można uzyskać estymator najmniejszych kwadratów tak, że nie musisz znać aby oszacowaćy=β0+β1xβ^1=(xix¯)(yiy¯)(xix¯)2β^0β^1

Załóżmy, że mam y=β1x1+β2x2 , jak uzyskać β^1 bez szacowania β^2 ? czy to nie jest możliwe?

Sabre CN
źródło
1
Możesz pominąć jedną ze zmiennych i nadal uzyskać obiektywne oszacowanie drugiej, jeśli są one niezależne.
david25272

Odpowiedzi:

51

Wyprowadzenie w notacji macierzowej

Począwszy od y=Xb+ϵ , co tak naprawdę jest takie samo jak

[y1y2yN]=[x11x12x1Kx21x22x2KxN1xN2xNK][b1b2bK]+[ϵ1ϵ2ϵN]

wszystko sprowadza się do minimalizacji ee :

ϵϵ=[e1e2eN][e1e2eN]=i=1Nei2

Minimalizacja ee daje nam:

minb ee=(yXb)(yXb)

e e = y y - 2 b X y + b X X bminb ee=yy2bXy+bXXb

(ee)b=2Xy+2XXb=!0

XXb=Xy

b=(XX)1Xy

Ostatnia rzecz matematyczna, warunek drugiego rzędu dla minimum wymaga, aby macierz była dodatnia. To wymaganie jest spełnione, jeśli ma pełną rangę.XXX

Dokładniejsze wyprowadzenie, które przechodzi przez wszystkie etapy w większym stopniu, można znaleźć pod http://economictheoryblog.com/2015/02/19/ols_estimator/

Andreas Dibiasi
źródło
3
To pochodzenie jest dokładnie tym, czego szukałem. Brak pomijanych kroków. Zaskakujące, jak trudno je znaleźć.
javadba
1
Czy w równaniu macierzowym drugie nie powinno *być +? Czy nie powinno być zamiast aby dopasować wymiary? bKbN
Alexis Olson,
Alexis Olson, masz rację! Zredagowałem swoją odpowiedź.
Andreas Dibiasi
13

Możliwe jest oszacowanie tylko jednego współczynnika w regresji wielokrotnej bez szacowania innych.

Oszacowanie jest uzyskiwane poprzez usunięcie efektów z innych zmiennych, a następnie regresję reszt względem reszt . Jest to wyjaśnione i zilustrowane. Jak dokładnie kontroluje się inne zmienne? i jak znormalizować (a) współczynnik regresji? . Piękno tego podejścia polega na tym, że nie wymaga rachunku różniczkowego, algebry liniowej, można go wizualizować za pomocą tylko dwuwymiarowej geometrii, jest stabilny numerycznie i wykorzystuje tylko jedną podstawową ideę regresji wielokrotnej: wyjęcie (lub „kontrolowanie”) ) skutki pojedynczej zmiennej.x 2 y x 1β1x2yx1


W niniejszym przypadku regresję wielokrotną można wykonać za pomocą trzech zwykłych kroków regresji:

  1. Zresetuj na x 2 (bez stałego terminu!). Niech dopasowanie będzie y = α y , 2 x 2 + δ . Szacunkowa wartość to α y , 2 = i y i x 2 iyx2y=αy,2x2+δ Dlatego reszty wynosząδ=y-αy,2x2. Geometrycznieδjest tym, co pozostałozypoodjęciujego rzutu nax2.

    αy,2=iyix2iix2i2.
    δ=yαy,2x2.
    δyx2
  2. Regresuj na x 2 (bez stałego wyrażenia). Niech dopasowanie będzie x 1 = α 1 , 2 x 2 + γ . Szacunkowa wartość to α 1 , 2 = i x 1 i x 2 ix1x2x1=α1,2x2+γResztki wynosząγ=x1-α1,2x2. Geometrycznieγjest pozostałością pox1poodjęciujego rzutu nax2.

    α1,2=ix1ix2iix2i2.
    γ=x1α1,2x2.
    γx1x2
  3. Zresetuj na γ (bez stałego członu). Oszacowanie to β 1 = Σ i δ i γ iδγDopasowanie będzieδ= β 1γ+ε. Geometrycznie p 1jest składnikiemhemibursztynianu(co oznaczarzx2wyprowadzony) wykierunku (co oznaczax1zx2wyjęty).

    β^1=iδiγiiγi2.
    δ=β^1γ+εβ^1δyx2γx1x2

Zauważ, że nie zostało oszacowane. β2 Z łatwością można uzyskać z tego, co zostało do tej pory uzyskano (jak β 0 w zwykłym przypadku regresji można łatwo otrzymać z oszacowania nachylenia β 1 ). W ε o pozostałości na dwuwymiarowym regresji Y o x 1 oraz x 2 .β^0β^1εyx1x2

Równoległość ze zwykłą regresją jest silna: kroki (1) i (2) są analogami odejmowania średnich według zwykłego wzoru. Jeśli pozwolisz, by był wektorem jedności, w rzeczywistości odzyskasz zwykłą formułę.x2

Uogólnia to w sposób oczywisty do regresji z więcej niż dwóch zmiennych do oceny β 1 , regres y i x 1 niezależnie od wszystkich innych zmiennych, a następnie regresji ich pozostałości na siebie. W tym momencie nie oszacowano jeszcze żadnego z innych współczynników regresji wielokrotnej y .β^1yx1y

Whuber
źródło
1
Świetna odpowiedź, oto ogólne twierdzenie en.wikipedia.org/wiki/…
JohnK
4

Zwykłe oszacowanie najmniejszych kwadratów jest funkcją liniową zmiennej odpowiedziβ . Mówiąc najprościej, OLS oszacowania współczynników, na „s, mogą być pisane tylko zmienną zależną ( Y I ”) i zmiennych niezależnych ( X k I „s).βYiXki

Aby wyjaśnić ten fakt ogólnym modelem regresji, musisz zrozumieć małą algebrę liniową. Załóżmy, że chcesz oszacować współczynniki w modelu regresji wielokrotnej,(β0,β1,...,βk)

Yi=β0+β1X1i+...+βkXki+ϵi

gdzie dla I = 1 , . . . , n . Matryca wzór X to N x K tabeli, w której każda z kolumn zawiera n obserwacje k t h zmienna zależna X k . Można znaleźć wiele wyjaśnień oraz pochodne tutaj o wzorze wykorzystano do obliczenia szacunkowej współczynników beta =ϵiiidN(0,σ2)i=1,...,nXn×knkthXk , który jestβ^=(β^0,β^1,...,β^k)

β^=(XX)1XY

przy założeniu, że istnieje odwrotność . Oszacowane współczynniki są funkcjami danych, a nie innych oszacowanych współczynników.(XX)1

caburke
źródło
yi=β0+β1x¯+β1(xix¯)+eiX(1,...,1)(x1x¯,...,xnx¯)β^=(XX)(1)XY
x1x2y=β1ex1t+β2ex2tx1x2
βyβ
2
n×kk×n
3

β0,β1,β2...βn

β^=(XX)1XY

XY

eii

ei=yiyi^

Całkowity błąd kwadratowy, który popełniamy, wynosi teraz:

i=1nei2=i=1n(yiyi^)2

Ponieważ mamy model liniowy, wiemy, że:

yi^=β0+β1x1,i+β2x2,i+...+βnxn,i

Which can be rewritten in matrix notation as:

Y^=Xβ

We know that

i=1nei2=EE

We want to minimize the total square error, such that the following expression should be as small as possible

EE=(YY^)(YY^)

This is equal to:

EE=(YXβ)(YXβ)

The rewriting might seem confusing but it follows from linear algebra. Notice that the matrices behave similar to variables when we are multiplying them in some regards.

We want to find the values of β such that this expression is as small as possible. We will need to differentiate and set the derivative equal to zero. We use the chain rule here.

dEEdβ=2XY+2XXβ=0

This gives:

XXβ=XY

Such that finally:

β=(XX)1XY

So mathematically we seem to have found a solution. There is one problem though, and that is that (XX)1 is very hard to calculate if the matrix X is very very large. This might give numerical accuracy issues. Another way to find the optimal values for β in this situation is to use a gradient descent type of method. The function that we want to optimize is unbounded and convex so we would also use a gradient method in practice if need be.

Vincent Warmerdam
źródło
except that you don't actually need to compute (XX)1...
user603
valid point. one could also use the gram schmidt process, but I just wanted to remark that finding the optimal values for the β vector can also be done numerically because of the convexity.
Vincent Warmerdam
2

A simple derivation can be done just by using the geometric interpretation of LR.

Linear regression can be interpreted as the projection of Y onto the column space X. Thus, the error, ϵ^ is orthogonal to the column space of X.

Therefore, the inner product between X and the error must be 0, i.e.,

<X,yXβ^>=0

XyXXβ^=0

Xy=XXβ^

Which implies that,

(XX)1Xy=β^.

Now the same can be done by:

(1) Projecting Y onto X2 (error δ=YX2D^), D^=(X2X2)1X2y,

(2) Projecting X1 onto X2 (error γ=X1X2G^), G^=(X1X1)1X1X2,

and finally,

(3) Projecting δ onto γ, β^1

enter image description here

Dnaiel
źródło