W jaki sposób termin błędu regresji może być kiedykolwiek skorelowany ze zmiennymi objaśniającymi?

22

Pierwsze zdanie tej strony wiki głosi, że „W ekonometrii problem endogeniczności występuje, gdy zmienna objaśniająca jest skorelowana z terminem błędu. ” 1

Moje pytanie brzmi: jak to się może stać? Czy regresja beta nie jest wybrana w taki sposób, że błąd jest prostopadły do ​​przestrzeni kolumn macierzy projektowej?

mieszkaniec północy
źródło
9
Regresję beta dobiera się tak, aby reszta była prostopadła do przestrzeni kolumny macierzy projektowej. Może to dać okropne oszacowanie prawdziwej wersji beta, jeśli błąd nie jest ortogonalny do przestrzeni kolumn macierzy projektowej! (tj. jeśli twój model nie spełnia założeń niezbędnych do konsekwentnego oszacowania współczynników przez regresję).
Matthew Gunn
3
Ortogonalność terminu błędu i przestrzeń kolumny macierzy projektowej nie jest własnością metody estymacji (np. Regresja zwykła metodą najmniejszych kwadratów), jest właściwością modelu (np. Y i = a + b x i + ϵ iyi=a+bxi+ϵi ).
Matthew Gunn
Myślę, że twoja edycja powinna być nowym pytaniem, ponieważ wydaje się, że znacznie zmieniłeś to, o co prosisz. Zawsze możesz z powrotem połączyć się z tym. (Myślę, że też trzeba to lepiej sformułować - kiedy piszesz „jaki byłby efekt”, nie jestem pewien, co to będzie ?) Zauważ, że zadanie nowego pytania generalnie przyciąga więcej uwagi, co byłoby zaletą za edytowanie istniejącego.
Silverfish

Odpowiedzi:

28

Łączymy dwa typy terminu „błąd”. Wikipedia rzeczywiście ma artykuł poświęcony temu rozróżnieniu błędami a resztkami .

W regresji OLS Reszty (twoje szacunki błędu lub terminu zakłóceń) εε^ są rzeczywiście gwarancją nieskorelowane ze zmiennych objaśniających, zakładając regresji zawiera termin przechwycenia.

Ale „prawdziwe” błędy εε mogą być z nimi skorelowane i to właśnie liczy się jako endogeniczność.

Aby uprościć sprawę, rozważ model regresji (możesz to opisać jako podstawowy „ proces generowania danych ” lub „MZD”, model teoretyczny, który, jak zakładamy, generuje wartość yy ):

y i = β 1 + β 2 x i + ε i

yi=β1+β2xi+εi

Zasadniczo nie ma powodu, dla którego xx nie może być skorelowane z εε w naszym modelu, jednak bardzo wolelibyśmy, aby nie naruszało w ten sposób standardowych założeń OLS. Na przykład może się zdarzyć, że yy zależy od innej zmiennej, która została pominięta w naszym modelu, i zostało to włączone do pojęcia zakłócenia ( εε jest miejscem, w którym zbijamy wszystkie rzeczy inne niż x,x które wpływają na yy ). Jeśli ta pominięta zmienna jest również skorelowana z xx , to εε będzie z kolei skorelowane z x,x a my będziemy mieć endogeniczność (w szczególności odchylenie zmiennej pominiętej ).

Po oszacowaniu modelu regresji na dostępnych danych otrzymujemy

Y i = β 1 + β 2 x I + ε I

yi=β^1+β^2xi+ε^i

Ze względu na sposób OLS prace * Reszty ε będzie skorelowane z x . Ale to nie znaczy, że musimy unikać endogeniczności - to tylko oznacza, że nie można go wykryć poprzez analizę korelacji pomiędzy ε i X , który będzie (do błędu numerycznego) zero. A ponieważ założenia OLS zostały naruszone, nie jesteśmy już w stanie zagwarantować miłych właściwości, takich jak bezstronność, tak bardzo cieszymy się z OLS. Nasz szacunek β 2 będzie stronniczy.ε^xε^xβ^2


( * )() Fakt, że ε jest skorelowane z X wynika bezpośrednio z „normalnych równań” Używamy do wyboru naszych najlepszych oszacowań dla współczynników.ε^x

Jeśli nie jesteś przyzwyczajony do ustawienia macierzy, a ja trzymam się modelu dwuwymiarowego zastosowanego w moim przykładzie powyżej, wówczas suma kwadratów reszt to S ( b 1 , b 2 ) = n i = 1 ε 2 i = n i = 1 ( r i - b 1 - b 2 x i ) 2S(b1,b2)=ni=1ε2i=ni=1(yib1b2xi)2 i znaleźć optymalną b 1 = p 1b1=β^1 i b 2 =β2b2=β^2 that minimise this we find the normal equations, firstly the first-order condition for the estimated intercept:

Sb1=ni=12(yib1b2xi)=2ni=1ˆεi=0

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

which shows that the sum (and hence mean) of the residuals is zero, so the formula for the covariance between ˆεε^ and any variable xx then reduces to 1n1ni=1xiˆεi1n1ni=1xiε^i. We see this is zero by considering the first-order condition for the estimated slope, which is that

Sb2=ni=12xi(yib1b2xi)=2ni=1xiˆεi=0

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

If you are used to working with matrices, we can generalise this to multiple regression by defining S(b)=εε=(yXb)(yXb)S(b)=εε=(yXb)(yXb); the first-order condition to minimise S(b)S(b) at optimal b=ˆβb=β^ is:

dSdb(ˆβ)=ddb(yybXyyXb+bXXb)|b=ˆβ=2Xy+2XXˆβ=2X(yXˆβ)=2Xˆε=0

dSdb(β^)=ddb(yybXyyXb+bXXb)b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

This implies each row of XX, and hence each column of XX, is orthogonal to ˆεε^. Then if the design matrix XX has a column of ones (which happens if your model has an intercept term), we must have ni=1ˆεi=0ni=1ε^i=0 so the residuals have zero sum and zero mean. The covariance between ˆεε^ and any variable xx is again 1n1ni=1xiˆεi1n1ni=1xiε^i and for any variable xx included in our model we know this sum is zero, because ˆεε^ is orthogonal to every column of the design matrix. Hence there is zero covariance, and zero correlation, between ˆεε^ and any predictor variable xx.

If you prefer a more geometric view of things, our desire that ˆyy^ lies as close as possible to yy in a Pythagorean kind of way, and the fact that ˆyy^ is constrained to the column space of the design matrix XX, dictate that ˆyy^ should be the orthogonal projection of the observed yy onto that column space. Hence the vector of residuals ˆε=yˆyε^=yy^ is orthogonal to every column of XX, including the vector of ones 1n1n if an intercept term is included in the model. As before, this implies the sum of residuals is zero, whence the residual vector's orthogonality with the other columns of XX ensures it is uncorrelated with each of those predictors.

Vectors in subject space of multiple regression

But nothing we have done here says anything about the true errors εε. Assuming there is an intercept term in our model, the residuals ˆεε^ are only uncorrelated with xx as a mathematical consequence of the manner in which we chose to estimate regression coefficients ˆββ^. The way we selected our ˆββ^ affects our predicted values ˆyy^ and hence our residuals ˆε=yˆyε^=yy^. If we choose ˆββ^ by OLS, we must solve the normal equations and these enforce that our estimated residuals ˆεε^ are uncorrelated with xx. Our choice of ˆββ^ affects ˆyy^ but not E(y)E(y) and hence imposes no conditions on the true errors ε=yE(y)ε=yE(y). It would be a mistake to think that ˆεε^ has somehow "inherited" its uncorrelatedness with xx from the OLS assumption that εε should be uncorrelated with xx. The uncorrelatedness arises from the normal equations.

Silverfish
źródło
1
does your yi=β1+β2xi+εiyi=β1+β2xi+εi mean regression using population data? Or what does it mean precisely?
denizen of the north
@user1559897 Yes, some textbooks will call this the "population regression line" or PRL. It's the underlying theoretical model for the population; you may also see this called the "data generating process" in some sources. (I tend to be a bit careful about saying it is the "regression on the population"... if you have a finite population, e.g. 50 states of the USA, that you perform the regression on, then this isn't quite true. If you are actually running a population on some data in your software, you are really talking about the estimated version of the regression, with the "hats")
Silverfish
I think i see what you are saying. If i understand you correctly, the error term in the model yi=β1+β2xi+εiyi=β1+β2xi+εi could have non-zero expectation as well because it is a theoretical generating process, not a ols regression.
denizen of the north
This is a great answer from statistical inference perspective. What do you think the effect would be if prediction accuracy is the primary concern? See the edit of the post.
denizen of the north
16

Simple example:

  • Let xi,1xi,1 be the number of burgers I buy on visit ii
  • Let xi,2xi,2 be the number of buns I buy.
  • Let b1b1 be the price of a burger
  • Let b2b2 be the price of a bun.
  • Independent of my burger and bun purchases, let me spend a random amount a+ϵia+ϵi where aa is a scalar and ϵiϵi is a mean zero random variable. We have E[ϵi|X]=0E[ϵi|X]=0.
  • Let yiyi be my spending on a trip to the grocery store.

The data generating process is:

yi=a+b1xi,1+b2xi,2+ϵi

yi=a+b1xi,1+b2xi,2+ϵi

If we ran that regression, we would get estimates ˆaa^, ˆb1b^1, and ˆb2b^2, and with enough data, they would converge on aa, b1b1, and b2b2 respectively.

(Technical note: We need a little randomness so we don't buy exactly one bun for each burger we buy at every visit to the grocery store. If we did this, x1x1 and x2x2 would be collinear.)

An example of omitted variable bias:

Now let's consider the model:

yi=a+b1xi,1+ui

yi=a+b1xi,1+ui

Observe that ui=b2xi,2+ϵiui=b2xi,2+ϵi. Hence Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

Is this zero? Almost certainly not! The purchase of burgers x1 and the purchase of buns x2 are almost certainly correlated! Hence u and x1 are correlated!

What happens if you tried to run the regression?

If you tried to run:

yi=ˆa+ˆb1xi,1+ˆui

Your estimate ˆb1 would almost certainly be a poor estimate of b1 because the OLS regression estimates ˆa,ˆb,ˆu would be constructed so that ˆu and x1 are uncorrelated in your sample. But the actual u is correlated with x1 in the population!

What would happen in practice if you did this? Your estimate ˆb1 of the price of burgers would ALSO pickup the price of buns. Let's say every time you bought a $1 burger you tended to buy a $0.50 bun (but not all the time). Your estimate of the price of burgers might be $1.40. You'd be picking up the burger channel and the bun channel in your estimate of the burger price.

Matthew Gunn
źródło
I like your burger bun example. You explained the problem from the perspective of statistical inference, ie inferring the effect of burger on price. Just wondering what the effect would be if all I care about is prediction, i.e prediction MSE on a test dataset? The intuition is that it is not going to be as good, but is there any theory to make it more precise? (this introduced more bias, but less variance, so the overall effect is not apparent to me. )
denizen of the north
1
@user1559897 If you just care about predicting spending, then predicting spending using the number of burgers and estimating ˆb1 as around $1.40 might work pretty well. If you have enough data, using the number of burgers and buns would undoubtedly work better. In short samples, L1 regularlization (LASSO) might send one of the coefficients b1 or b2 to zero. I think you're correctly recognizing that what you're doing in regression is estimating a conditional expectation function. My point is for that that function to capture causal effects, you need additional assumptions.
Matthew Gunn
3

Suppose that we're building a regression of the weight of an animal on its height. Clearly, the weight of a dolphin would be measured differently (in different procedure and using different instruments) from the weight of an elephant or a snake. This means that the model errors will be dependent on the height, i.e. explanatory variable. They could be dependent in many different ways. For instance, maybe we tend to slightly overestimate the elephant weights and slightly underestimate the snake's, etc.

So, here we established that it is easy to end up with a situation when the errors are correlated with the explanatory variables. Now, if we ignore this and proceed to regression as usual, we'll notice that the regression residuals are not correlated with the design matrix. This is because, by design the regression forces the residuals to be uncorrelated. Note, also that residuals are not the errors, they're the estimates of errors. So, regardless of whether the errors themselves are correlated or not with the independent variables the error estimates (residuals) will be uncorrelated by the construction of the regression equation solution.

Aksakal
źródło