Pierwsze zdanie tej strony wiki głosi, że „W ekonometrii problem endogeniczności występuje, gdy zmienna objaśniająca jest skorelowana z terminem błędu. ” 1
Moje pytanie brzmi: jak to się może stać? Czy regresja beta nie jest wybrana w taki sposób, że błąd jest prostopadły do przestrzeni kolumn macierzy projektowej?
regression
mieszkaniec północy
źródło
źródło
Odpowiedzi:
Łączymy dwa typy terminu „błąd”. Wikipedia rzeczywiście ma artykuł poświęcony temu rozróżnieniu błędami a resztkami .
W regresji OLS Reszty (twoje szacunki błędu lub terminu zakłóceń) εε^ są rzeczywiście gwarancją nieskorelowane ze zmiennych objaśniających, zakładając regresji zawiera termin przechwycenia.
Ale „prawdziwe” błędy εε mogą być z nimi skorelowane i to właśnie liczy się jako endogeniczność.
Aby uprościć sprawę, rozważ model regresji (możesz to opisać jako podstawowy „ proces generowania danych ” lub „MZD”, model teoretyczny, który, jak zakładamy, generuje wartość yy ):
y i = β 1 + β 2 x i + ε i
Zasadniczo nie ma powodu, dla którego xx nie może być skorelowane z εε w naszym modelu, jednak bardzo wolelibyśmy, aby nie naruszało w ten sposób standardowych założeń OLS. Na przykład może się zdarzyć, że yy zależy od innej zmiennej, która została pominięta w naszym modelu, i zostało to włączone do pojęcia zakłócenia ( εε jest miejscem, w którym zbijamy wszystkie rzeczy inne niż x,x które wpływają na yy ). Jeśli ta pominięta zmienna jest również skorelowana z xx , to εε będzie z kolei skorelowane z x,x a my będziemy mieć endogeniczność (w szczególności odchylenie zmiennej pominiętej ).
Po oszacowaniu modelu regresji na dostępnych danych otrzymujemy
Y i = β 1 + β 2 x I + ε I
Ze względu na sposób OLS prace * Reszty ε będzie skorelowane z x . Ale to nie znaczy, że musimy unikać endogeniczności - to tylko oznacza, że nie można go wykryć poprzez analizę korelacji pomiędzy ε i X , który będzie (do błędu numerycznego) zero. A ponieważ założenia OLS zostały naruszone, nie jesteśmy już w stanie zagwarantować miłych właściwości, takich jak bezstronność, tak bardzo cieszymy się z OLS. Nasz szacunek β 2 będzie stronniczy.ε^ x ε^ x β^2
( * )(∗) Fakt, że ε jest skorelowane z X wynika bezpośrednio z „normalnych równań” Używamy do wyboru naszych najlepszych oszacowań dla współczynników.ε^ x
Jeśli nie jesteś przyzwyczajony do ustawienia macierzy, a ja trzymam się modelu dwuwymiarowego zastosowanego w moim przykładzie powyżej, wówczas suma kwadratów reszt to S ( b 1 , b 2 ) = ∑ n i = 1 ε 2 i = ∑ n i = 1 ( r i - b 1 - b 2 x i ) 2S(b1,b2)=∑ni=1ε2i=∑ni=1(yi−b1−b2xi)2 i znaleźć optymalną b 1 = p 1b1=β^1 i b 2 =β2b2=β^2 that minimise this we find the normal equations, firstly the first-order condition for the estimated intercept:
∂S∂b1=n∑i=1−2(yi−b1−b2xi)=−2n∑i=1ˆεi=0
which shows that the sum (and hence mean) of the residuals is zero, so the formula for the covariance between ˆεε^ and any variable xx then reduces to 1n−1∑ni=1xiˆεi1n−1∑ni=1xiε^i . We see this is zero by considering the first-order condition for the estimated slope, which is that
∂S∂b2=n∑i=1−2xi(yi−b1−b2xi)=−2n∑i=1xiˆεi=0
If you are used to working with matrices, we can generalise this to multiple regression by defining S(b)=ε′ε=(y−Xb)′(y−Xb)S(b)=ε′ε=(y−Xb)′(y−Xb) ; the first-order condition to minimise S(b)S(b) at optimal b=ˆβb=β^ is:
dSdb(ˆβ)=ddb(y′y−b′X′y−y′Xb+b′X′Xb)|b=ˆβ=−2X′y+2X′Xˆβ=−2X′(y−Xˆβ)=−2X′ˆε=0
This implies each row of X′X′ , and hence each column of XX , is orthogonal to ˆεε^ . Then if the design matrix XX has a column of ones (which happens if your model has an intercept term), we must have ∑ni=1ˆεi=0∑ni=1ε^i=0 so the residuals have zero sum and zero mean. The covariance between ˆεε^ and any variable xx is again 1n−1∑ni=1xiˆεi1n−1∑ni=1xiε^i and for any variable xx included in our model we know this sum is zero, because ˆεε^ is orthogonal to every column of the design matrix. Hence there is zero covariance, and zero correlation, between ˆεε^ and any predictor variable xx .
If you prefer a more geometric view of things, our desire that ˆyy^ lies as close as possible to yy in a Pythagorean kind of way, and the fact that ˆyy^ is constrained to the column space of the design matrix XX , dictate that ˆyy^ should be the orthogonal projection of the observed yy onto that column space. Hence the vector of residuals ˆε=y−ˆyε^=y−y^ is orthogonal to every column of XX , including the vector of ones 1n1n if an intercept term is included in the model. As before, this implies the sum of residuals is zero, whence the residual vector's orthogonality with the other columns of XX ensures it is uncorrelated with each of those predictors.
But nothing we have done here says anything about the true errors εε . Assuming there is an intercept term in our model, the residuals ˆεε^ are only uncorrelated with xx as a mathematical consequence of the manner in which we chose to estimate regression coefficients ˆββ^ . The way we selected our ˆββ^ affects our predicted values ˆyy^ and hence our residuals ˆε=y−ˆyε^=y−y^ . If we choose ˆββ^ by OLS, we must solve the normal equations and these enforce that our estimated residuals ˆεε^ are uncorrelated with xx . Our choice of ˆββ^ affects ˆyy^ but not E(y)E(y) and hence imposes no conditions on the true errors ε=y−E(y)ε=y−E(y) . It would be a mistake to think that ˆεε^ has somehow "inherited" its uncorrelatedness with xx from the OLS assumption that εε should be uncorrelated with xx . The uncorrelatedness arises from the normal equations.
źródło
Simple example:
The data generating process is:
yi=a+b1xi,1+b2xi,2+ϵi
If we ran that regression, we would get estimates ˆaa^ , ˆb1b^1 , and ˆb2b^2 , and with enough data, they would converge on aa , b1b1 , and b2b2 respectively.
(Technical note: We need a little randomness so we don't buy exactly one bun for each burger we buy at every visit to the grocery store. If we did this, x1x1 and x2x2 would be collinear.)
An example of omitted variable bias:
Now let's consider the model:
yi=a+b1xi,1+ui
Observe that ui=b2xi,2+ϵiui=b2xi,2+ϵi . Hence
Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)
Is this zero? Almost certainly not! The purchase of burgers x1 and the purchase of buns x2 are almost certainly correlated! Hence u and x1 are correlated!
What happens if you tried to run the regression?
If you tried to run:
yi=ˆa+ˆb1xi,1+ˆui
Your estimate ˆb1 would almost certainly be a poor estimate of b1 because the OLS regression estimates ˆa,ˆb,ˆu would be constructed so that ˆu and x1 are uncorrelated in your sample. But the actual u is correlated with x1 in the population!
What would happen in practice if you did this? Your estimate ˆb1 of the price of burgers would ALSO pickup the price of buns. Let's say every time you bought a $1 burger you tended to buy a $0.50 bun (but not all the time). Your estimate of the price of burgers might be $1.40. You'd be picking up the burger channel and the bun channel in your estimate of the burger price.
źródło
Suppose that we're building a regression of the weight of an animal on its height. Clearly, the weight of a dolphin would be measured differently (in different procedure and using different instruments) from the weight of an elephant or a snake. This means that the model errors will be dependent on the height, i.e. explanatory variable. They could be dependent in many different ways. For instance, maybe we tend to slightly overestimate the elephant weights and slightly underestimate the snake's, etc.
So, here we established that it is easy to end up with a situation when the errors are correlated with the explanatory variables. Now, if we ignore this and proceed to regression as usual, we'll notice that the regression residuals are not correlated with the design matrix. This is because, by design the regression forces the residuals to be uncorrelated. Note, also that residuals are not the errors, they're the estimates of errors. So, regardless of whether the errors themselves are correlated or not with the independent variables the error estimates (residuals) will be uncorrelated by the construction of the regression equation solution.
źródło