Jak interpretować współczynnik drugiego stopnia w regresji zmiennych instrumentalnych za pomocą instrumentu binarnego i binarnej zmiennej endogennej?

11

(dość długi post, przepraszam. Zawiera wiele podstawowych informacji, więc możesz przejść do pytania na dole).

Wprowadzenie: Pracuję nad projektem, w którym próbujemy zidentyfikować wpływ binarnej zmiennej endogennej na ciągły wynik, . Stworzyliśmy instrument , który naszym zdaniem jest przypisany losowo.x1yz1

Dane: Same dane są w strukturze panelu z około 34 000 obserwacji rozłożonych na 1000 jednostek i około 56 okresów. przyjmuje wartość 1 dla około 700 (2%) obserwacji, a robi to dla około 3000 (9%). 111 (0,33%) obserwacji otrzymuje wynik 1 zarówno na jak i na , i jest dwa razy bardziej prawdopodobne, że obserwacja 1 na jeśli także 1 na .x1z1z1x1x1z1

Oszacowanie: Szacujemy następujący model 2SLS za pomocą procedury ivreg2 Staty:

x1=π0+π1z1+Zπ+v
y=β0+β1x1+Zβ+u

Gdzie jest wektorem innych zmiennych egzogenicznych, jest przewidywaną wartością z pierwszego etapu, i są terminami błędów.Zx1x1uv

Wyniki: Wszystko wydaje się działać dobrze; oszacowanie jest bardzo istotne w pierwszym etapie, a oszacowanie jest bardzo istotne w drugim etapie. Wszystkie znaki są zgodne z oczekiwaniami, w tym te dla innych zmiennych egzogenicznych. Problem polega jednak na tym, że oszacowanie - współczynnik zainteresowania - jest niewiarygodnie duże (lub przynajmniej zgodnie ze sposobem, w jaki go interpretujemy).π1β1β1

y wynosi od około 2 do około 26 ze średnią i medianą 17, ale oszacowanie wynosi od 30 do 40 (w zależności od specyfikacji)!β1

Słaby IV: Naszą pierwszą myślą było, że było to spowodowane zbyt słabym instrumentem; to znaczy nie jest bardzo skorelowane ze zmienną endogenną, ale tak naprawdę nie wydaje się tak. Aby sprawdzić słabość instrumentu, używamy pakietu osłabienia Finlay, Magnusson i Schaffer, ponieważ zapewnia on testy odporne na naruszenie założenia (co jest istotne tutaj, biorąc pod uwagę, że mamy dane panelowe i nasze SE na poziom jednostki).i.i.d.

Zgodnie z ich testem AR dolna granica 95% przedziału ufności dla współczynnika drugiego stopnia wynosi między 16 a 29 (ponownie w zależności od specyfikacji). Prawdopodobieństwo odrzucenia wynosi praktycznie 1 dla wszystkich wartości bliskich zeru.

Wpływowe obserwacje: staraliśmy się oszacować model z każdą jednostką usuwaną indywidualnie, z każdą obserwacją usuwaną indywidualnie oraz z grupami jednostek usuwanymi. Bez prawdziwej zmiany.

Proponowane rozwiązanie: ktoś zaproponował, aby nie podsumowywać szacowanego efektu instrumentowanego w jego pierwotnej metryki (0-1), ale w metodzie jego przewidywanej wersji. wynosi od -0,01 do 0,1 ze średnią i medianą około 0,02 i SD około 0,018. Gdybyśmy podsumowali szacowany efekt , powiedzmy, o jeden wzrost SD , byłoby to (inne specyfikacje dają prawie identyczne wyniki). Byłoby to znacznie bardziej rozsądne (ale nadal znaczące). Wydaje się, że jest to idealne rozwiązanie. Tyle że nigdy nie widziałem, żeby ktoś to robił; wydaje się, że wszyscy interpretują współczynnik drugiego etapu za pomocą metryki oryginalnej zmiennej endogenicznej.x1x1x1x10.01830=0.54

Pytanie: Czy w modelu IV poprawne jest podsumowanie szacunkowego wpływu (naprawdę LATE) wzrostu zmiennej endogenicznej za pomocą metryki przewidywanej wersji? W naszym przypadku ta miara jest przewidywanym prawdopodobieństwem.

Uwaga: Używamy 2SLS, mimo że mamy binarną zmienną endogeniczną (co czyni pierwszy etap LPM). Wynika to z Angrista i Kruegera (2001): „Zmienne instrumentalne i poszukiwanie tożsamości: od podaży i popytu do eksperymentów naturalnych”) Wypróbowaliśmy również trzyetapową procedurę stosowaną w Adams, Almeida i Ferreira (2009): „ Zrozumienie związku między założycielem a dyrektorem generalnym a wydajnością firmy ”. To drugie podejście, które składa się z modelu probitowego, po którym następuje 2SLS, daje mniejsze i bardziej rozsądne współczynniki, ale są one nadal bardzo duże, jeśli są interpretowane w metodzie 0-1 (około 9-10). Otrzymujemy takie same wyniki przy ręcznych obliczeniach, jak w przypadku opcji probit-2sls w ivtreatreg Cerulli.

Bertel
źródło
Próbowałeś etregress/treatreg?
Dimitriy V. Masterov,
Cześć Dimitriy, dzięki za odpowiedź! Próbowałem już etregress i daje to nieco podobne wyniki. Jednak czytając podręcznik Stata i Wooldridge (2002): „Analiza ekonometryczna danych przekroju i panelu” odnoszę wrażenie, że ten rodzaj modelu regresji leczenia zakłada ignorancję leczenia. To znaczy, zależnie od obserwowanych zmiennych, to, czy jednostka jest leczona, czy nie, jest niezależna od (potencjalnego) wyniku zarówno pod względem leczenia, jak i kontroli.
Bertel,
(cd.) W naszych danych tak naprawdę nie możemy podtrzymać tego założenia; mamy po prostu źródło losowej zmienności . Dlatego IV wydaje się odpowiednią opcją. W każdym razie, jeśli mam odpowiednie założenia. x
Bertel,
Byłoby naprawdę pomocne, aby mieć jakieś wykresy, np. Wykresy rozproszenia lub wykresy gęstości jądra surowych zmiennych i reszt itp. Pamiętaj, że plim , nawet niewielka korelacja między instrumentem a terminem błędu może spowodować silne niespójne oszacowanie ! β^1=β1+Cov(z1,u)Cov(z1,x1)β1
Arne Jonas Warnke,

Odpowiedzi:

2

To stare pytanie, ale dla każdego, kto natknie się na to w przyszłości, intuicyjnie oszacowanie 2SLS dla jest z regresji „zredukowanej formy”β1α1

y=α0+α1z1+Zα+u

podzielone przez z regresji „pierwszego etapu”π1

x1=π0+π1z1+Zπ+v

Więc jeśli oszacowania 2SLS dla są „nieprawdopodobnie duże”, sprawdź oszacowania OLS dla i .β1α1π1

Jeśli oszacowania są „rozsądne”, problem może być taki, że oszacowania są „bardzo małe”. Dzielenie przez „bardzo mały” może dać „nieprawdopodobnie duży” .α1π1α^1π^1β^1

Piotr
źródło