Co znaczą „endogeniczność” i „egzogeniczność”?

43

Rozumiem, że podstawowa definicja endogeniczności jest taka, że nie jest spełniony, ale co to oznacza w sensie realnym? Czytam artykuł z Wikipedii, na przykład podaży i popytu, próbując to zrozumieć, ale to naprawdę nie pomogło. Słyszałem inny opis endogennego i egzogennego jako bycia w systemie i bycia poza nim, a to wciąż nie ma dla mnie sensu.

Xϵ=0
użytkownik25901
źródło
1
Wszystkie trzy odpowiedzi poniżej są bardzo dobre (+1 do każdego). Jeśli potrzebujesz innego źródła informacji, omawiam ten temat tutaj: Szacowanieb 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2 zamiastb1x1+b2x2+b3x3 i zilustruj to w / w symulacji R.
gung - Przywróć Monikę
1
Gdy masz endogenność, twoja regresja nie ma już użytecznych estymatorów ani statystyk testowych.
Ivan
1
Zgadzam się z @gung i chciałbym podkreślić, że pełna odpowiedź dotyczyłaby „użyteczne w jakim celu ”? Wiele z powyższych odpowiedzi bardzo dobrze radzi sobie z tym pytaniem.
Matthew Drury
@Matthew Wydaje mi się, że ten post próbuje odpowiedzieć na pytanie „co to znaczy w sensie realnym?” Byłoby miło, gdyby wyjaśnienie zostało uszczegółowione, aby ludzie mogli je lepiej docenić.
whuber
@ whuber Nie wiem, jest tak krótki, że tak naprawdę nie mogę powiedzieć. Ale myślałem na przykład, że model szacunkowy może być przydatny do przewidywania (lub tylko skojarzenia), nawet jeśli masz endogeniczność, więc „nie ma już możliwych do oszacowania” wydaje się fałszywy bez wyjaśnienia.
Matthew Drury

Odpowiedzi:

69

Odpowiedź JohnRos jest bardzo dobra. Mówiąc wprost, endogeniczność oznacza, że ​​przyczyna jest błędna. To, że model, który zanotowałeś i oszacowałeś, nie oddaje w prawidłowy sposób związku przyczynowego w prawdziwym świecie. Kiedy piszesz:

Yi=β0+β1Xi+ϵi

możesz pomyśleć o tym równaniu na wiele sposobów. Można to uznać za wygodny sposób przewidywania na podstawie wartościMożna to uznać za wygodny sposób modelowania . W obu tych przypadkach nie ma czegoś takiego jak endogeniczność i nie musisz się tym martwić.X E { Y | X }YXE{Y|X}

Można jednak również traktować to równanie jako ucieleśnienie związku przyczynowego. Możesz pomyśleć o jako odpowiedzi na pytanie: „Co by się stało z gdybym sięgnął do tego systemu i eksperymentalnie zwiększył o 1?” Jeśli chcesz myśleć o tym w ten sposób, użycie OLS do oszacowania sprowadza się do założenia, że: Y Xβ1YX

  1. YX powodujeY
  2. Yϵ powodujeY
  3. Xϵ nie powodujeX
  4. XY nie powodujeX
  5. Nic, co powoduje Xϵ również powodujeX

Niepowodzenie któregokolwiek z 3-5 spowoduje ogólnie , lub, nie całkiem równoważnie, . Zmienne instrumentalne są sposobem na skorygowanie faktu, że przyczyna jest błędna (poprzez przyjęcie innego, odmiennego, przyczynowego założenia). Doskonale przeprowadzona randomizowana, kontrolowana próba jest sposobem na wymuszenie 3-5. Jeśli wybierzesz losowo, to na pewno nie jest to spowodowane przezC o v ( X , ϵ ) 0 X Y ϵE{ϵ|X}0Cov(X,ϵ)0XY , lub cokolwiek innego. Tak zwane metody „naturalnego eksperymentu” to próby znalezienia specjalnych okoliczności na świecie, w których 3-5 jest prawdziwe, nawet jeśli nie uważamy, że 3-5 są prawdziwe.ϵ

W przykładzie JohnRos, aby obliczyć wartość płacy w edukacji, potrzebujesz przyczynowej interpretacji , ale istnieją dobre powody, by sądzić, że 3 lub 5 jest fałszywe.β1

Twoje zamieszanie jest jednak zrozumiałe. Jest to bardzo typowe podczas kursów na modelu liniowym, gdy instruktor stosuje interpretację przyczynowąβ1 który podałem powyżej, udając, że nie wprowadza związku przyczynowego, udając, że „wszystko to tylko statystyki”. To tchórzliwe kłamstwo, ale jest również bardzo powszechne.

W rzeczywistości jest częścią większego zjawiska w biomedycynie i naukach społecznych. Prawie zawsze jest tak, że próbujemy określić przyczynowo-skutkowy wpływ na - o to przecież chodzi w nauce. Z drugiej strony prawie zawsze zdarza się, że istnieje pewna historia, która prowadzi do wniosku, że jedna z 3-5 jest fałszywa. Istnieje więc rodzaj praktykowanej, płynnej, ekscytującej nieuczciwości, w której usuwamy obiekcje, mówiąc, że wykonujemy pracę związaną z stowarzyszeniem, a następnie przekradamy interpretację przyczynową z powrotem w innym miejscu (zwykle we wstępie i końcowych rozdziałach artykułu).YXY

Jeśli jesteś naprawdę zainteresowany, facetem do przeczytania jest Judea Perl. James Heckman jest także dobry.

Rachunek
źródło
5
+1 Świetne wyjaśnienie i komentarz. Witamy na naszej stronie!.
whuber
2
Czy możesz powiedzieć, którą pracę Heckmana poleciłbyś, aby uzyskać podstawowe i solidne zrozumienie tej kwestii?
Kenny LJ
Mam pytanie: jak sprawdzić, czy lub jest prawdziwe „przy użyciu danych pod ręką (a nie wiedzy w dziedzinie), które mogą nie pochodzić z eksperymentu, tj. , zestaw danych obserwacyjnych ”? Wydaje mi się, że nie ma możliwości przetestowania lub po prostu użyj danych, ponieważ nie jest obserwowalny, to czy to prawda, że ​​endogeniczności nie można przetestować przy użyciu danych? E[ϵ|X]=0E[ϵX]=0E[ϵ|X]=0E[ϵX]=0ϵ
KevinKim
1
@KevinKim Tak. nie można przetestować przy użyciu statystyk. nie można odzyskać / oszacować inaczej niż poprzez dokonanie oszacowania, a następnie dokonanie resztek. Odzyskiwanie można wykonać dopiero po oszacowaniu. Odzyskiwanie jest poprawne tylko wtedy, gdy oszacowanie jest wykonane poprawnie. Oszacowanie jest wykonane poprawnie tylko wtedy, gdy . Więc okrągły. Informacja, że musi pochodzić z merytorycznej, niestatystycznej wiedzy. Przykładem tego jest gdzie są resztami OLS. Dzieje się tak niezależnie od tego, czy . ϵ E { ϵ | X } = 0 E { ϵ | X } = 0 C o v { X , e } = 0 e E { ϵ | X } = 0E{ϵ|X}=0ϵE{ϵ|X}=0E{ϵ|X}=0Cov{X,e}=0eE{ϵ|X}=0
Bill
2
@KevinKim Zgadza się. I to nie tylko model liniowy. To wszystkie statystyki. Zauważ, że kiedy ktoś mówi: „korelacja nie jest przyczyną”, nigdy, nigdy nie mówi dalej, co to jest przyczyna. Przyczynowość jest teorią i może być tylko teorią. Nawet (doskonale - a więc nigdy - nie przeprowadzony) RCT nie mówi o związku przyczynowym bez teorii.
Bill
18

Pozwól mi skorzystać z przykładu:

Powiedz, że chcesz obliczyć (przyczynowy) wpływ edukacji na dochód. Bierzesz lata edukacji i dane o dochodach i regresujesz jeden względem drugiego. Czy odzyskałeś to, czego chciałeś? Prawdopodobnie nie! Wynika to z faktu, że dochód jest również spowodowany przez rzeczy inne niż edukacja, ale które są skorelowane z edukacją. Nazwijmy je „umiejętnościami”: możemy bezpiecznie założyć, że na „lata nauki” wpływa „umiejętność”, ponieważ im wyższy poziom umiejętności, tym łatwiej zdobyć wykształcenie. Jeśli więc cofniesz lata edukacji do dochodu, estymator efektu edukacji absorbuje efekt „umiejętności” i otrzymujesz zbyt optymistyczne oszacowanie powrotu do edukacji. Oznacza to, że wpływ edukacji na dochód jest (w górę) tendencyjny, ponieważ edukacja nie jest egzogeniczna w stosunku do dochodów.

Cov(X,ϵ)=0

JohnRos
źródło
1
Dzięki za przykład i wyjaśnienie. Nadal jestem trochę nieświadomy tego, co endogeniczność i egzogeniczność oznaczają zwykłym angielskim. Co dokładnie mam na myśli, gdy mówię, że zmienna jest endogenna lub, jeśli o to chodzi, egzogenna.
user25901
@ JohnRos Napisałeś: „Endogeniczność jest tylko problemem, jeśli chcesz odzyskać efekty przyczynowe”, więc wydaje mi się, że można również powiedzieć, że: „egzogeniczność implikuje przyczynowość” ... Nigdy nie czytam tego wyrażenia ... jednak ma rację? Jeśli jest to poprawne, wydaje mi się, że wiele podręczników, czasem w sposób dorozumiany, zakłada wnioskowanie przyczynowe jako normalne cele.
markowitz
@markowitz: Ilekroć wnioskujesz o współczynniki regresji, sugeruje się, że chcesz przyczynowości. Jeśli chcesz tylko przewidywać, wartość współczynników nie ma tak naprawdę znaczenia, pod warunkiem, że przewidywania są dobre. To prawda, że ​​klasyczne podręczniki nie robią tego rozróżnienia, ponieważ przed zadaniem przewidywania nie jest „nauka podstawowa”, ale raczej „inżynieria” (i wybacz mi to prymitywne uogólnienie)
JohnRos
Dzięki, JohnRos, pozwól, że zadam kolejne pytanie na ten temat. Problem tendencyjnego szacowania współczynników ma sens tylko w modelu regresji przyczynowości, podczas gdy dla celów prognozowania zdecydowanie nie. Prawda? Proszę o to, ponieważ ta kwestia w żadnym miejscu nie jest jasna.
markowitz
8

User25901 szuka prostego, prostego wyjaśnienia w świecie rzeczywistym, co oznaczają pojęcia egzogeniczny i endogeniczny. Odpowiadanie na tajemne przykłady lub definicje matematyczne tak naprawdę nie odpowiada na zadane pytanie.

Jak mogę w pełni zrozumieć te dwa terminy?

Oto, co wymyśliłem:

Exo - zewnętrzny, zewnętrzny Endo - wewnętrzny, wewnętrzny - genialny - pochodzący z

Egzogeniczny: Zmienna jest egzogeniczna dla modelu, jeśli nie jest określona przez inne parametry i zmienne w modelu, ale jest ustawiona na zewnątrz, a wszelkie zmiany w niej wynikają z sił zewnętrznych.

Endogeniczny: zmienna jest endogenna w modelu, jeśli przynajmniej częściowo jest funkcją innych parametrów i zmiennych w modelu.

niedźwiedź
źródło
7
Są to rozsądne, intuicyjne definicje, ale nie ma potrzeby tak lekceważenia innych odpowiedzi.
gung - Przywróć Monikę
3
Odwoływanie się do etymologii może dać jeden użyteczny uchwyt do zapamiętania, co oznaczają terminy techniczne (działa dla mnie dobrze), ale należy unikać etymologii, aby je uzasadnić . Dość kilka terminów (w statystykach i gdzie indziej) jest właściwie rozumianych tylko poprzez uważne przestudiowanie ich matematycznych definicji. Zrozumienie tej odpowiedzi wymaga jasnej koncepcji zamierzonego użycia słów i wyrażeń, takich jak „określone przez”, „ustawione zewnętrznie”, „zmiany w”, „siły zewnętrzne” i „częściowo [a] funkcja”, z których żadne nie jest natychmiastowe pozorne lub jednoznaczne.
whuber
6

Xϵ=0Xϵ^=0 przy budowie. Twoje szacunkowe wartości resztkowe nie są skorelowane z twoimi regresorami, ale twoje szacunkowe wartości resztkowe są w pewnym sensie „błędne”.

Y=α+βX+γZ+noiseZXXnoise0ZXlog(ex)=x. To tylko matematyczny fakt. To jest pominięte zmienne odchylenie.

IYXIXXY .

To dwa etapy najmniejszych kwadratów, które są prawie takie same jak IV.

użytkownik_ogólny
źródło
Jak rozumiem, 2SLS nie jest jednym ze sposobów na wykonanie IV, przepraszam, jeśli się mylę.
user25901
Błędy standardowe 2SLS są nieprawidłowe. Zapominam dlaczego i jak, ale prawdopodobnie coś byś znalazł, gdybyś znalazł w Google „Standardowe błędy IV 2SLS”. Większość pakietów oprogramowania implementuje 2sls z metodą rozwiązywania (t (z)% *% (x)% *% t (z)% *% y
generic_user
1
X^X
Dzięki. Kiedy to pisałem, byłem świeżo po zastosowaniu ekonometrii stosowanej.
generic_user
-1

W regresji chcemy uchwycić ilościowy wpływ zmiennej niezależnej (która, jak zakładamy, jest egzogenna i nie jest zależna od czegoś innego) na zidentyfikowaną zmienną zależną. Chcemy wiedzieć, jaki wpływ netto ma zmienna egzogeniczna na zmienną zależną, co oznacza, że ​​zmienna niezależna powinna być wolna od jakiegokolwiek wpływu innej zmiennej. Szybkim sposobem sprawdzenia, czy regresja cierpi na problem endogeniczności, jest sprawdzenie korelacji między zmienną niezależną a resztami. Ale to tylko zgrubna kontrola, w przeciwnym razie należy przeprowadzić formalne testy endogeniczności.

Amon Magwiro
źródło
3
To nie jest prawda. Korelacja między resztami a zmiennymi objaśniającymi z regresji wynosi zero według konstrukcji. To nie jest test na endogeniczność.
Andy
E[ϵX]=0ϵy=b0+b1x+ϵϵE[e^i|x]=0e^iE[e^i|x]=0b^0+b^1x