Co się stanie, jeśli „zmienne kontrolne” są również endogenne?

13

Pracuję w ekonomii politycznej, a wiele modeli obejmuje „niewinne” zmienne kontrolne, takie jak populacja, nierówność, dziedzictwo kolonialne itp., Aby autor mógł domagać się bezstronności w stosunku do swojej niezależnej zmiennej zainteresowania.

Ale jeśli którakolwiek z tych zmiennych kontrolnych jest endogenna dla jakiejś pominiętej zmiennej, czy nie narusza to bezstronności WSZYSTKICH zmiennych niezależnych?

Jeśli to prawda, co możemy zrobić? Pozostaw te zmienne kontrolne wyłączone, a one same prowadzą do pomijania zmiennych zmiennych. Uwzględnij te w, a one zanieczyszczą wszystko w modelu.

Przykład: badacz chce wiedzieć, czy nierówność prowadzi do przemocy, i kontroluje kilka rzeczy: Widząc, że nierówność może być endogeniczna (z powodu pominiętej zmiennej Poziom altruizmu

Violence=Inequality+Growth+Development+ϵ
), spróbuje znaleźć zmienną instrumentalną dla nierówności . Ale czy wzrost i rozwój nie są również endogenne (tj. Skorelowane z poziomem altruizmu )?

Ten przykład może wyglądać głupio, ale moja uwaga dotyczy prac nad ekonomią polityczną / rozwojem, istnieje tak wiele czynników (jeszcze pominiętych), że obawiam się, że wiele zmiennych zawartych w LHS jest endogennych. Jednak często badacz szuka tylko instrumentu dla swojej zmiennej niezależnej dla zwierzaka.

Heisenberg
źródło
Jeszcze inną rzeczą do rozważenia jest tak zwany problem „złej kontroli” - sytuacja, w której kontrola jest samą zmienną wynikową. Sugerowałbym, abyś przeczytał sekcję 3.2.3 w słynnym „Przeważnie nieszkodliwym ekonometrii” autorstwa Pristkego i Pischke, aby zapoznać się z tym tematem i dlaczego ma to znaczenie, jeśli chcesz lepiej zrozumieć swoje pytanie.
MauOlivares,

Odpowiedzi:

10

„Ale jeśli którakolwiek z tych zmiennych kontrolnych jest endogenna dla jakiejś pominiętej zmiennej, czy nie narusza to bezstronności WSZYSTKICH zmiennych niezależnych?”

Nie chcę tego zbyt mocno podkreślać, ale warto wspomnieć, że nie jest to w ogóle prawda. Poniższe wyprowadzenie, miejmy nadzieję, zapewni pewne zrozumienie wspomnianego „zanieczyszczenia”. Jako prosty kontrprzykład załóżmy, że proces generowania danych jest określony przez gdzie Z nie jest obserwowane. Niech C o v ( X 1 , Z ) = 0 , C o v ( X 2

Y=X1β1+X2β2+Zγ+ε,
ZCov(X1,Z)=0 , a C o v ( X 1 , X 2 ) = 0 . Zatem jasne jest, że X 2 jest „endogenny”. Ale zauważ, że ponieważ C o v ( X 1 , Z ) = 0 , nasze oszacowanie β 1 nadal będzie w porządku: plimCov(X2,Z)0Cov(X1,X2)=0X2Cov(X1,Z)=0β1 gdzieX1 =M2X1iM2=[I-X2(X2 X2)-1X2 ]. PonieważCov(X1,X2)=0,X1
plimβ^1=β1+γCov(X1,Z)Var(X1)=β1,
X1=M2X1M2=[IX2(X2X2)1X2]Cov(X1,X2)=0 . Więc C o v ( X 1 , Z ) = 0 .X1=X1Cov(X1,Z)=0

"Co możemy zrobić?"

Jednym z głównych wyzwań robienia dobrych ekonometrii jest myślenie o potencjalnych strategiach identyfikacji. W opisywanej sytuacji prawdopodobnie nic nie można zrobić, prócz podejścia do problemu w inny sposób.

jmbejara
źródło
Chociaż technicznie masz rację, nie podkreśliłbym tego. Wolałbym powiedzieć, że ogólnie rzecz biorąc, nie możemy wykluczyć stronniczości żadnej ze zmiennych, zamiast powiedzieć w niektórych scenariuszach, że jest w porządku , no cóż, ponieważ zwykle nie znamy MZD.
FooBar
β^Cov(X1,Z)=0Cov(X1,X2)=0Cov(X1,X2)=0Cov(X1,X2)=0X2
@FooBar, zgadzam się. Zaktualizowałem post, aby podkreślić, że jest to wyjątkowy przypadek. Jeśli chodzi o to, że nie znamy MZD, to prawda. Ale nie o to chodzi. Każda analiza musi zakładać założenia dotyczące MZD, a jakość analizy zależy od jakości założeń. Pochodne, które podałem, służą jedynie zilustrowaniu przykładu założeń (aczkolwiek bardzo mocnych założeń), które mogą doprowadzić cię tam, gdzie chcesz się udać.
jmbejara
Cov(X1,Z)=0Cov(X1,Z)=0YX1X2
1
@jmbejara wysłałem 1) jako osobne pytanie . Edytuj moje pytanie / tytuł, ponieważ nie wiem, jak sformułować tytuł w sposób inteligentny i przydatny w tym przypadku dla Googlera.
Heisenberg
6

Wszystko jest zbyt silne, ale prawdopodobnie niektóre. Ten problem nazywa się „rozmazywaniem”. Spójrz na dowód w notatkach Greene'a na slajdzie 5.

Emily Oster ma fajny dokument roboczy (i polecenie Stata psacalc), które mogą pomóc ograniczyć błąd.

Dimitriy V. Masterov
źródło
5

W kontekście estymacji metodą najmniejszych kwadratów sposób, w jaki musimy (próbować) radzić sobie z możliwą endogenicznością regresorów, polega na estymacji zmiennych instrumentalnych. To podejście nie zależy od posiadania tylko jednego endogennego regresora - możesz mieć wiele. W takim przypadku musisz oczywiście znaleźć więcej instrumentów, które utrudniają pracę - ale w zasadzie metoda będzie działać w ten sam sposób.

Oszacowanie IV nie rozwiązuje problemu uprzedzeń, zapewnia jedynie spójność estymatora. Ale nic nie rozwiązuje problemu samej ścisłej egzogeniczności (a następnie istnieją pewne metody redukcji uprzedzeń). Ale jeśli rozejrzysz się po innej witrynie SE, Cross Validated , która dotyczy statystyk, zobaczysz, że doświadczeni statystycy nie przywiązują dużej wagi do właściwości bezstronności - skupiają się na efektywności średniej kwadratowej dla skończonych właściwości próbki, i konsystencji dla właściwości dużych próbek.

Alecos Papadopoulos
źródło
1
Tak więc właściwym podejściem jest znalezienie instrumentów dla wszystkich zmiennych endogennych, prawda?
Heisenberg
1
Tak to jest droga.
Alecos Papadopoulos
5

Jest to przykład tego, co statystyka Andrew Gelman nazywa „błędem kontrolowania w celu uzyskania efektu pośredniego”. Oto jego opis tego błędu pojawiającego się, gdy badacze pytają, czy posiadanie większej liczby córek zmienia twoją politykę. Decyzja o posiadaniu drugiego dziecka jest z konieczności uzależniona od poprzedniej decyzji o posiadaniu pierwszego dziecka, a zatem wydaje się, że jest to wyraźny przykład kontrolowania endogenicznej zmiennej decyzyjnej.

W ciągu ostatnich kilku lat przeprowadzono kilka badań dotyczących decyzji ekonomicznych rodziców synów w porównaniu z rodzicami córek ... Wspólną cechą wszystkich tych badań jest to, że kontrolują oni całkowitą liczbę dzieci ... Na pierwszy rzut oka kontrolowanie całkowitej liczby dzieci wydaje się rozsądne. Istnieje jednak trudność polegająca na tym, że całkowita liczba dzieci jest wynikiem pośrednim, a kontrolowanie go (czy to przez podzbiór danych w oparciu o #kids lub użycie #kids jako zmiennej kontrolnej w modelu regresji) może odchylać oszacowanie przyczynowego skutku posiadania syna (lub córki).

Aby to zobaczyć, przypuśćmy (hipotetycznie), że politycznie konserwatywni rodzice częściej chcą synów, a jeśli mają dwie córki, są (hipotetycznie) bardziej skłonni do ubiegania się o trzecie dziecko. Dla porównania, liberałowie częściej zatrzymują się przy dwóch córkach. W takim przypadku, jeśli spojrzysz na dane dotyczące rodzin z 2 córkami, konserwatyści będą niedostatecznie reprezentowani, a dane mogą wykazać korelację córek z politycznym liberalizmem - nawet jeśli posiadanie córek nie ma żadnego efektu! ...

Rozwiązaniem jest zastosowanie standardowego konserwatywnego (w sensie statystycznym!) Podejścia do wnioskowania przyczynowego, które polega na regresji zmiennej leczenia (płeć dziecka), ale kontrolowaniu tylko tych rzeczy, które zdarzają się przed urodzeniem dziecka. Na przykład można porównać rodziców, których pierwszym dzieckiem jest dziewczynka, z rodzicami, których pierwszym dzieckiem jest chłopiec. Można także spojrzeć na drugie narodziny, porównując rodziców, których drugie dziecko jest dziewczynką, z tymi, których drugie dziecko jest chłopcem kontrolującym płeć pierwszego dziecka. I tak w przypadku trzeciego dziecka itp.

Czy posiadanie synów czyni cię bardziej konserwatywnym? Może, może nie. Problem z kontrolowaniem wyniku pośredniego

Jeśli chodzi o twój komentarz: „Pozostaw te zmienne kontrolne na zewnątrz, a one same prowadzą do pomijania zmiennych zmiennych”, wydaje się, że zależy to od tego, jaki rodzaj instrumentu otrzymujesz. Dobry instrument, taki, który naprawdę spełnia wymagania, musi być niezależny od warunku błędu w drugim etapie i niezależny od wszystkiego, nad czym bezpośrednio kontrolujesz . Oznacza to, że instrument zmienia Y tylko przez X. Zatem odpowiedni instrument nierówności musi być niezależny od wzrostu i rozwoju (powodzenia w znalezieniu tego!), Jeśli uważamy, że równanie przemocy jest równaniem strukturalnym przemocy.

BKay
źródło
1

Jak zauważyły ​​inne posty, endogenne regresory mogą zanieczyścić wszystkie oszacowania parametrów regresji, gdy regresory są skorelowane.

X1X2X2X1

β^1X2X1X2

Rozważ następujący model (analogiczny do notacji @ jmbejara)

y=X1β1+X2β2+Zγ+ε,

Zε1nx1(k)εp01nx2(k)εp0kX21nx1(k)z(l)p0(k,l)

Teraz, jeśli jest endogenny, ale nie oznacza, że ​​cała korelacja między i zniknie po kontroli dlaX2X1X1ZX2 , tj.

1nx1(k)QX2z(l)p0
dla wszystkich , gdzie to rzut na przestrzeń zerową (`` resztkowy twórca ''), tj. więc mamy się dobrze. Powód wynika z następującego dwuetapowego estymatora (np. Amemiya, 1985, s. 6-7):(k,l)QX2X2QX2[InX2(X2X2)1X2]β1

X1X2

β^1=(X1QX2X1)1X1QX2y=β1+(X1QX2X1)1X1QX2X2p0β2+(X1QX2X1)1X1QX2Zp0γ+(X1QX2X1)1X1QX2εp0
QED. Trzecia linia tutaj jest kluczowa i pokazuje również, dlaczego jesteśmy bezpieczni, gdy i są nieskorelowane / ortogonalne. Szczęśliwe regresje endogenne.X1X2
Murphy
źródło