Po co używać opóźnionego DV jako zmiennej instrumentalnej?

12

Odziedziczyłem kod analizy danych, który nie będąc ekonometrycznym, staram się zrozumieć. Jeden model uruchamia regresję zmiennych instrumentalnych za pomocą następującego polecenia Stata

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

Ten zestaw danych jest panelem z wieloma sekwencyjnymi obserwacjami dla tego zestawu zmiennych.

Dlaczego ten kod używa opóźnionych wartości DV jako instrumentów? Jak rozumiem (od wkopania do starego podręcznika), estymacja IV jest używana, gdy występuje problem z powodu korelacji regresora z terminem błędu. Nie wspomniano jednak o wyborze opóźnień DV jako instrumentów.

Komentarz do tego wiersza kodu wspomina o „przyczynowości”. Jakakolwiek pomoc w ustaleniu celu tutaj byłaby mile widziana.

laramichaels
źródło
Z twojego pytania możesz odczytać kod nieco źle. W składni wykorzystuje się różnice jako „instrumenty” do oszacowania opóźnienia zmiennej zależnej.
Andy W
lara: czy możesz edytować swoje pytanie, aby wyjaśnić w prosty sposób znaczenie wyciętego kodu stata?
user603,

Odpowiedzi:

7

Edycja: Biorąc pod uwagę wyjaśnienie kodu staty dostarczone przez Andy'ego W poniżej, zmieniłem moją odpowiedź, aby lepiej odpowiedzieć na pytanie. Starą wersję mojej odpowiedzi znajdziesz poniżej bieżącej.

Wygląda na to, że Twój kod jest niezdarną próbą samodzielnego wykonania estymatora Arellano-Bond (przy założeniu szacunków ivreg z 2SOLS). Możesz znaleźć więcej informacji na temat stosowania i logiki estymatora A / B w ten miły przeglądarki papierze , jak również w tym szerszego wprowadzenia.

Mówiąc w skrócie i w 3 liniach: chociaż estymator A / B jest rzeczywiście (uogólnionym) estymatorem IV, nie jest stosowany do rozwiązywania jakichkolwiek problemów przyczynowych. IV w tym kontekście są wykorzystywane do zapewnienia skutecznego oszacowania współczynnika AR w kontekście danych panelowych.

Odradzam tu ponowne wynalezienie koła, a zamiast tego skorzystanie z gotowego zestawu narzędzi do dokonania takich oszacowań. W przypadku stata możesz użyć pakietu XTABOND2 (lub XTABOND, jeśli korzystasz z STAT11).


stara odpowiedź:

xtytxtytxtytytxt

ytxt1xt

ytxt1xt1ytxy

ytxt1I(0)

użytkownik603
źródło
+1 Zgadzam się z tą interpretacją, że wygląda jak DIY Arellano-Bond. NB: Uważam, że Arellano-Bond jest godny zaufania tylko wtedy, gdy liczba jednostek przekroju jest bardzo duża --- jak w wielu setkach. Arellano wskazuje tak samo w swoich artykułach i podręczniku, wskazując, że spójność jest podana w liczbie jednostek przekroju, a wskaźnik zbieżności nie jest wcale taki szybki.
Cyrus S
5

Nie znam Staty, więc nie mogę komentować konkretnego modelu. Jednak stosowanie zmiennych opóźnionych jest dość powszechnym podejściem w przypadku ogólnego nastawienia na równoczesność, a zwłaszcza tworzenia zmiennych instrumentalnych.

Załóżmy, że masz sprzężenie zwrotne między dwiema zmiennymi w swoim modelu: zmienną niezależną (taką jak cena) i zmienną zależną (taką jak ilość). Zatem oba są endogeniczne (ich przyczyny wynikają z modelu), a zakłócenia składnika błędu wpłyną na obie zmienne.

Aby rozwiązać ten problem, chcesz uczynić zmienną niezależną (cenę) egzogeniczną, aby zakłócenia w błędzie wpływały tylko na zmienną zależną (ilość). Dokonuje się tego poprzez tworzenie nowych zmiennych egzogenicznych poprzez regresję innych zmiennych egzogenicznych w modelu pod względem ceny. Te nowe zmienne egzogeniczne są zmiennymi instrumentalnymi (IV). Wartości IV pochodzą z terminów egzogenicznych i dlatego nie są skorelowane z błędem.

Ale aby to zrobić, musisz dowiedzieć się, które zmienne są egzogeniczne, aby można je było wykorzystać do uzyskania IV. Możemy zauważyć, że zmienne opóźnione „występowały” w przeszłości i dlatego nie można ich skorelować z błędem w chwili obecnej. Zmienne opóźnione są zatem egzogeniczne i stają się dogodnymi kandydatami do uzyskania IV. (Należy jednak pamiętać, że powyższy argument zawodzi, gdy błędy są autokorelowane).

Dobrym wprowadzeniem i odniesieniem do tego jest wprowadzająca ekonometria: nowoczesne podejście Wooldridge.

ars
źródło
5

Dla tych, którzy nie znają poniższego fragmentu kodu ze Staty, udostępniono OP

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

równanie to można odczytać jako

Yt=α+β1(Var1)+β2(Var1)+β3(Var1)+β4(Y~t1)

Y~t1

Y~t1=α+Z1(Δ2Yt)+Z2(Δ3Yt)+Z3(Δ4Yt)

(tzn. pierwszy etap równania IV znajduje się w nawiasie w kodzie Stata)

Delty reprezentują różnice drugiego, trzeciego i czwartego rzędu i są używane jako instrumenty wykluczone do oszacowania opóźnienia zmiennej zależnej.

L.t1D.D2.

Zasadniczo nie mogłem wymyślić żadnego logicznego uzasadnienia, dlaczego ktoś miałby to zrobić. Ale Kwak wskazał (odwołując się do tego artykułu ), że metoda Arellano-Bonda wykorzystuje różnice jako instrumenty do oszacowania komponentu auto-regresyjnego modelu. (Również początkowo założyłem, że różnice będą miały wpływ tylko wtedy, gdy seria nie będzie stacjonarna, co według Bond'a w tym powiązanym dokumencie różnice będą jedynie słabymi instrumentami w przypadku, gdy seria jest losowym przejściem, str. 21 )

Jako sugestie dotyczące dalszego czytania materiału jako wprowadzenia do zmiennych instrumentalnych,

Kolejny plakat w tej odpowiedzi (Charlie) powiązany z niektórymi slajdami, które przygotował, które mi się podobają i które sugerują, warto poszukać wprowadzenia do zmiennych instrumentalnych. Chciałbym również zasugerować to PowerPoint profesor kopalni przygotowane na warsztatach jako wprowadzenie, jak również. Jako ostatnia sugestia dla każdego, kto chce dowiedzieć się więcej o zmiennych instrumentalnych, powinieneś przyjrzeć się pracy Joshua Angrista.

Oto moja wstępna odpowiedź


L.t1D.D2.

We wszystkich aplikacjach, które widziałem, ludzie wykorzystują opóźnienie zmiennych niezależnych jako instrumenty do oszacowania opóźnienia zmiennej zależnej (z powodów, o których mówi). Jest to jednak oparte na założeniu, że opóźnione zmienne niezależne są egzogenne względem terminu błędu w okresie, w którym są stosowane.

Nie znam żadnego uzasadnienia, w którym różnice zmiennej zależnej byłyby uważane za egzogeniczne. O ile mi wiadomo, nie akceptuje się praktyki różnicowania tylko jednej strony równania i dałoby to raczej nielogiczne wyniki ( tutaj jest artykuł krytykujący kogoś o odwrotnej sytuacji, w której uwzględniono poziom zmiennych jako predyktor zróżnicowana seria.) Jeśli zmienisz terminy w równaniu IV, to faktycznie będzie wyglądać podobnie do rozszerzonego testu Dickeya Fullera.

O ile najprostszą odpowiedzią byłoby zapytanie osoby, która napisała kod, czy ktoś może podać przykład, w którym procedura ta byłaby do przyjęcia, lub w jakiejkolwiek sytuacji, w której procedura ta zwróciłaby jakieś znaczące wyniki? Ponieważ nie mogę wymyślić żadnego logicznego uzasadnienia, dlaczego różnice miałyby wpływ na poziomy, z wyjątkiem przypadku, gdy seria nie jest stacjonarna.

Andy W.
źródło
Cześć Andy. Nie znam kodu stata. Dlatego nie wspominam o kodzie wyciętym w mojej odpowiedzi, który należy rozumieć jako odpowiedź na część pytania sformułowaną w języku angielskim.
user603,
@kwak - nie krytykowałem twojego postu, zgadzam się ze wszystkim, co powiedziałeś. Po prostu zastanawiałem się, czy istnieje jakaś logika, dlaczego ktoś użyłby różnic jako instrumentów, o których nie wiedziałem. Nie wyobrażam sobie żadnej sytuacji, w której różnice spełniałyby którykolwiek z wymogów takiej procedury.
Andy W
Cześć Andy:> Nie wziąłem twojego komentarza za krytykę. Twój post podkreśla kluczowy aspekt pytania, którego ani Rob, ani ja (co prawda) nie rozumieliśmy. Jeśli w ogóle, to ilustruje znaczenie współpracy.
user603,
+1. Nie widziałem tego wszystkiego wcześniej - dziękuję za zwrócenie uwagi na problem, a także na awarię / mini kurs na notacji Stata. Wziąłem twój pierwszy komentarz, aby zasugerować, że interpretacja była błędna i odpowiedziałem w bardzo ogólnym sensie. Cieszę się, że byłeś bardziej wytrwały i że kwak to rozgryzł.
ars