Konfiguracja danych dla różnic w różnicach

Która konfiguracja jest poprawna dla używanego modelu regresji różnicowej

$Y_{ist} = \alpha +\gamma_s*T + \lambda d_t + \delta*(T*d_t)+ \epsilon_{ist}$

gdzie T jest manekinem, który jest równy 1, jeśli obserwacja pochodzi z grupy badanej, a d jest manekinem, który jest równy 1 w okresie po wystąpieniu leczenia

1) Losowe próbki z każdej grupy i czasu (tj. 4 losowe próbki)

lub

2) Dane paneli, w których te same jednostki są śledzone w obu okresach?

Czy to ma znaczenie, a jeśli nie, czy można używać OLS w obu przypadkach?

regression econometrics difference-in-difference B_Miner
źródło

Nie widziałem (1) wykonania - analiza zawsze wydaje się = (2). Nie jestem pewien, dlaczego miałbyś to zrobić (1). Ale nie widziałem wielu badań DID.

Charles

Przykłady 1 pokazano w Wooldridge Introductory Econometrics 13.2

B_Miner

Kluczowym założeniem różnic w różnicach (DID) jest to, że obie grupy mają wspólny trend w zmiennej wyniku przed leczeniem. Jest to ważne, aby wysunąć argument, że zmiana dla leczonej grupy wynika z leczenia, a nie dlatego, że dwie grupy były już na początku różne od siebie.

Jeśli pobierzesz próbki od różnych osób przed i po zabiegu, osłabi to argument, chyba że próbki z grup poddanych leczeniu i grupie kontrolnej są w rzeczywistości losowe i duże. Więc może się zdarzyć, że ktoś zapyta cię: „Jak możesz upewnić się, że efekt jest spowodowany leczeniem, a nie tylko dlatego, że pobrałeś próbki od różnych osób?” - i trudno będzie na nie odpowiedzieć. To pytanie można uniknąć, wykorzystując dane panelowe, ponieważ tam śledzisz te same jednostki statystyczne w czasie i ogólnie jest to bardziej solidne podejście.

Aby odpowiedzieć na ostatnie pytanie: tak, dane są ważne, ale z pewnością możesz użyć OLS do oszacowania powyższego równania. Ważną rzeczą, która w przeszłości była często pomijana, jest prawidłowe oszacowanie standardowych błędów. Jeśli ich nie poprawisz, korelacja szeregowa zlekceważy je o dobrą kwotę i znajdziesz znaczące efekty, nawet jeśli prawdopodobnie nie powinieneś. Jako odniesienie i sugestie dotyczące radzenia sobie z tym problemem patrz Bertrand i in. (2004) „Jak bardzo powinniśmy ufać szacunkom różnic w różnicach?” .

Na koniec, jeśli masz agregowane dane (np. Na poziomie stanu) lub jeśli możesz łatwo agregować swoje i jeśli chcesz użyć nowszej metody ekonometrycznej niż DID, możesz rzucić okiem na Abadie i in. (2010) „Syntetyczne metody kontroli w porównawczych studiach przypadków” . Syntetyczna metoda kontroli jest coraz częściej stosowana w dzisiejszych badaniach i istnieją dobrze udokumentowane procedury dla R i Staty. Może to również jest dla ciebie interesujące.

Andy
źródło

To wspaniale Andy! Czy mogę podsumować, stwierdzając, że oba zestawy danych są dopuszczalne, ale że dane panelowe łatwiej jest spierać się o założenia? Oba mogą być dopasowane przez OLS, ale standardowe błędy (zwłaszcza zakładam, że konfiguracja danych panelu) są wątpliwe z powodu możliwej korelacji szeregowej. Czy konfiguracja panelu z Newey West SE byłaby dobrym rozwiązaniem?

B_Miner

Tak, w przypadku pierwszego typu danych potrzebujesz więcej silnych założeń. W przypadku błędów standardowych powinna działać poprawka Newey West. W rzeczywistości jest to analogiczne do jednej z metod korekcji zaproponowanej przez Bertranda i in. (używają klastrowych błędów standardowych). Nowsza metoda wykorzystuje bootstrap, który działa całkiem dobrze (patrz rbnz.govt.nz/research_and_publications/seminars_and_workshop/... ). Mam nadzieję że to pomoże!

Andy,

Konfiguracja danych dla różnic w różnicach

Odpowiedzi: