Odziedziczyłem kod analizy danych, który nie będąc ekonometrycznym, staram się zrozumieć. Jeden model uruchamia regresję zmiennych instrumentalnych za pomocą następującego polecenia Stata
ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)
Ten zestaw danych jest panelem z wieloma sekwencyjnymi obserwacjami dla tego zestawu zmiennych.
Dlaczego ten kod używa opóźnionych wartości DV jako instrumentów? Jak rozumiem (od wkopania do starego podręcznika), estymacja IV jest używana, gdy występuje problem z powodu korelacji regresora z terminem błędu. Nie wspomniano jednak o wyborze opóźnień DV jako instrumentów.
Komentarz do tego wiersza kodu wspomina o „przyczynowości”. Jakakolwiek pomoc w ustaleniu celu tutaj byłaby mile widziana.
regression
stata
instrumental-variables
laramichaels
źródło
źródło
Odpowiedzi:
Edycja: Biorąc pod uwagę wyjaśnienie kodu staty dostarczone przez Andy'ego W poniżej, zmieniłem moją odpowiedź, aby lepiej odpowiedzieć na pytanie. Starą wersję mojej odpowiedzi znajdziesz poniżej bieżącej.
Wygląda na to, że Twój kod jest niezdarną próbą samodzielnego wykonania estymatora Arellano-Bond (przy założeniu szacunków ivreg z 2SOLS). Możesz znaleźć więcej informacji na temat stosowania i logiki estymatora A / B w ten miły przeglądarki papierze , jak również w tym szerszego wprowadzenia.
Mówiąc w skrócie i w 3 liniach: chociaż estymator A / B jest rzeczywiście (uogólnionym) estymatorem IV, nie jest stosowany do rozwiązywania jakichkolwiek problemów przyczynowych. IV w tym kontekście są wykorzystywane do zapewnienia skutecznego oszacowania współczynnika AR w kontekście danych panelowych.
Odradzam tu ponowne wynalezienie koła, a zamiast tego skorzystanie z gotowego zestawu narzędzi do dokonania takich oszacowań. W przypadku stata możesz użyć pakietu XTABOND2 (lub XTABOND, jeśli korzystasz z STAT11).
stara odpowiedź:
źródło
Nie znam Staty, więc nie mogę komentować konkretnego modelu. Jednak stosowanie zmiennych opóźnionych jest dość powszechnym podejściem w przypadku ogólnego nastawienia na równoczesność, a zwłaszcza tworzenia zmiennych instrumentalnych.
Załóżmy, że masz sprzężenie zwrotne między dwiema zmiennymi w swoim modelu: zmienną niezależną (taką jak cena) i zmienną zależną (taką jak ilość). Zatem oba są endogeniczne (ich przyczyny wynikają z modelu), a zakłócenia składnika błędu wpłyną na obie zmienne.
Aby rozwiązać ten problem, chcesz uczynić zmienną niezależną (cenę) egzogeniczną, aby zakłócenia w błędzie wpływały tylko na zmienną zależną (ilość). Dokonuje się tego poprzez tworzenie nowych zmiennych egzogenicznych poprzez regresję innych zmiennych egzogenicznych w modelu pod względem ceny. Te nowe zmienne egzogeniczne są zmiennymi instrumentalnymi (IV). Wartości IV pochodzą z terminów egzogenicznych i dlatego nie są skorelowane z błędem.
Ale aby to zrobić, musisz dowiedzieć się, które zmienne są egzogeniczne, aby można je było wykorzystać do uzyskania IV. Możemy zauważyć, że zmienne opóźnione „występowały” w przeszłości i dlatego nie można ich skorelować z błędem w chwili obecnej. Zmienne opóźnione są zatem egzogeniczne i stają się dogodnymi kandydatami do uzyskania IV. (Należy jednak pamiętać, że powyższy argument zawodzi, gdy błędy są autokorelowane).
Dobrym wprowadzeniem i odniesieniem do tego jest wprowadzająca ekonometria: nowoczesne podejście Wooldridge.
źródło
Dla tych, którzy nie znają poniższego fragmentu kodu ze Staty, udostępniono OP
ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)
równanie to można odczytać jako
(tzn. pierwszy etap równania IV znajduje się w nawiasie w kodzie Stata)
Delty reprezentują różnice drugiego, trzeciego i czwartego rzędu i są używane jako instrumenty wykluczone do oszacowania opóźnienia zmiennej zależnej.
L.
D.
D2.
Zasadniczo nie mogłem wymyślić żadnego logicznego uzasadnienia, dlaczego ktoś miałby to zrobić. Ale Kwak wskazał (odwołując się do tego artykułu ), że metoda Arellano-Bonda wykorzystuje różnice jako instrumenty do oszacowania komponentu auto-regresyjnego modelu. (Również początkowo założyłem, że różnice będą miały wpływ tylko wtedy, gdy seria nie będzie stacjonarna, co według Bond'a w tym powiązanym dokumencie różnice będą jedynie słabymi instrumentami w przypadku, gdy seria jest losowym przejściem, str. 21 )
Jako sugestie dotyczące dalszego czytania materiału jako wprowadzenia do zmiennych instrumentalnych,
Kolejny plakat w tej odpowiedzi (Charlie) powiązany z niektórymi slajdami, które przygotował, które mi się podobają i które sugerują, warto poszukać wprowadzenia do zmiennych instrumentalnych. Chciałbym również zasugerować to PowerPoint profesor kopalni przygotowane na warsztatach jako wprowadzenie, jak również. Jako ostatnia sugestia dla każdego, kto chce dowiedzieć się więcej o zmiennych instrumentalnych, powinieneś przyjrzeć się pracy Joshua Angrista.
Oto moja wstępna odpowiedź
L.
D.
D2.
We wszystkich aplikacjach, które widziałem, ludzie wykorzystują opóźnienie zmiennych niezależnych jako instrumenty do oszacowania opóźnienia zmiennej zależnej (z powodów, o których mówi). Jest to jednak oparte na założeniu, że opóźnione zmienne niezależne są egzogenne względem terminu błędu w okresie, w którym są stosowane.
Nie znam żadnego uzasadnienia, w którym różnice zmiennej zależnej byłyby uważane za egzogeniczne. O ile mi wiadomo, nie akceptuje się praktyki różnicowania tylko jednej strony równania i dałoby to raczej nielogiczne wyniki ( tutaj jest artykuł krytykujący kogoś o odwrotnej sytuacji, w której uwzględniono poziom zmiennych jako predyktor zróżnicowana seria.) Jeśli zmienisz terminy w równaniu IV, to faktycznie będzie wyglądać podobnie do rozszerzonego testu Dickeya Fullera.
O ile najprostszą odpowiedzią byłoby zapytanie osoby, która napisała kod, czy ktoś może podać przykład, w którym procedura ta byłaby do przyjęcia, lub w jakiejkolwiek sytuacji, w której procedura ta zwróciłaby jakieś znaczące wyniki? Ponieważ nie mogę wymyślić żadnego logicznego uzasadnienia, dlaczego różnice miałyby wpływ na poziomy, z wyjątkiem przypadku, gdy seria nie jest stacjonarna.
źródło