(dość długi post, przepraszam. Zawiera wiele podstawowych informacji, więc możesz przejść do pytania na dole).
Wprowadzenie: Pracuję nad projektem, w którym próbujemy zidentyfikować wpływ binarnej zmiennej endogennej na ciągły wynik, . Stworzyliśmy instrument , który naszym zdaniem jest przypisany losowo.
Dane: Same dane są w strukturze panelu z około 34 000 obserwacji rozłożonych na 1000 jednostek i około 56 okresów. przyjmuje wartość 1 dla około 700 (2%) obserwacji, a robi to dla około 3000 (9%). 111 (0,33%) obserwacji otrzymuje wynik 1 zarówno na jak i na , i jest dwa razy bardziej prawdopodobne, że obserwacja 1 na jeśli także 1 na .
Oszacowanie: Szacujemy następujący model 2SLS za pomocą procedury ivreg2 Staty:
Gdzie jest wektorem innych zmiennych egzogenicznych, jest przewidywaną wartością z pierwszego etapu, i są terminami błędów.
Wyniki: Wszystko wydaje się działać dobrze; oszacowanie jest bardzo istotne w pierwszym etapie, a oszacowanie jest bardzo istotne w drugim etapie. Wszystkie znaki są zgodne z oczekiwaniami, w tym te dla innych zmiennych egzogenicznych. Problem polega jednak na tym, że oszacowanie - współczynnik zainteresowania - jest niewiarygodnie duże (lub przynajmniej zgodnie ze sposobem, w jaki go interpretujemy).
wynosi od około 2 do około 26 ze średnią i medianą 17, ale oszacowanie wynosi od 30 do 40 (w zależności od specyfikacji)!
Słaby IV: Naszą pierwszą myślą było, że było to spowodowane zbyt słabym instrumentem; to znaczy nie jest bardzo skorelowane ze zmienną endogenną, ale tak naprawdę nie wydaje się tak. Aby sprawdzić słabość instrumentu, używamy pakietu osłabienia Finlay, Magnusson i Schaffer, ponieważ zapewnia on testy odporne na naruszenie założenia (co jest istotne tutaj, biorąc pod uwagę, że mamy dane panelowe i nasze SE na poziom jednostki).
Zgodnie z ich testem AR dolna granica 95% przedziału ufności dla współczynnika drugiego stopnia wynosi między 16 a 29 (ponownie w zależności od specyfikacji). Prawdopodobieństwo odrzucenia wynosi praktycznie 1 dla wszystkich wartości bliskich zeru.
Wpływowe obserwacje: staraliśmy się oszacować model z każdą jednostką usuwaną indywidualnie, z każdą obserwacją usuwaną indywidualnie oraz z grupami jednostek usuwanymi. Bez prawdziwej zmiany.
Proponowane rozwiązanie: ktoś zaproponował, aby nie podsumowywać szacowanego efektu instrumentowanego w jego pierwotnej metryki (0-1), ale w metodzie jego przewidywanej wersji. wynosi od -0,01 do 0,1 ze średnią i medianą około 0,02 i SD około 0,018. Gdybyśmy podsumowali szacowany efekt , powiedzmy, o jeden wzrost SD , byłoby to (inne specyfikacje dają prawie identyczne wyniki). Byłoby to znacznie bardziej rozsądne (ale nadal znaczące). Wydaje się, że jest to idealne rozwiązanie. Tyle że nigdy nie widziałem, żeby ktoś to robił; wydaje się, że wszyscy interpretują współczynnik drugiego etapu za pomocą metryki oryginalnej zmiennej endogenicznej.
Pytanie: Czy w modelu IV poprawne jest podsumowanie szacunkowego wpływu (naprawdę LATE) wzrostu zmiennej endogenicznej za pomocą metryki przewidywanej wersji? W naszym przypadku ta miara jest przewidywanym prawdopodobieństwem.
Uwaga: Używamy 2SLS, mimo że mamy binarną zmienną endogeniczną (co czyni pierwszy etap LPM). Wynika to z Angrista i Kruegera (2001): „Zmienne instrumentalne i poszukiwanie tożsamości: od podaży i popytu do eksperymentów naturalnych”) Wypróbowaliśmy również trzyetapową procedurę stosowaną w Adams, Almeida i Ferreira (2009): „ Zrozumienie związku między założycielem a dyrektorem generalnym a wydajnością firmy ”. To drugie podejście, które składa się z modelu probitowego, po którym następuje 2SLS, daje mniejsze i bardziej rozsądne współczynniki, ale są one nadal bardzo duże, jeśli są interpretowane w metodzie 0-1 (około 9-10). Otrzymujemy takie same wyniki przy ręcznych obliczeniach, jak w przypadku opcji probit-2sls w ivtreatreg Cerulli.
etregress/treatreg
?Odpowiedzi:
To stare pytanie, ale dla każdego, kto natknie się na to w przyszłości, intuicyjnie oszacowanie 2SLS dla jest z regresji „zredukowanej formy”β1 α1
podzielone przez z regresji „pierwszego etapu”π1
Więc jeśli oszacowania 2SLS dla są „nieprawdopodobnie duże”, sprawdź oszacowania OLS dla i .β1 α1 π1
Jeśli oszacowania są „rozsądne”, problem może być taki, że oszacowania są „bardzo małe”. Dzielenie przez „bardzo mały” może dać „nieprawdopodobnie duży” .α1 π1 α^1 π^1 β^1
źródło