Dopasowywanie wyniku skłonności do danych panelowych

13

Mam podłużny zestaw danych osób, a niektóre z nich zostały poddane leczeniu, a inne nie. Wszystkie osoby są w próbie od urodzenia do 18 roku życia, a leczenie odbywa się w pewnym wieku pomiędzy tym zakresem. Wiek leczenia może się różnić w zależności od przypadku. Korzystając z dopasowywania wyników skłonności, chciałbym dopasować pary traktowane i kontrolne parami z dokładnym dopasowaniem w roku urodzenia, tak że mogę śledzić każdą parę od ich urodzenia do 18 roku życia. W sumie jest około 150 leczonych i 4000 nieleczonych osób. Po dopasowaniu pomysł polega na zastosowaniu strategii różnic w różnicach, aby oszacować efekt leczenia.

Problem, z którym się teraz spotykam, polega na dopasowaniu danych panelu. Korzystam z psmatch2polecenia Staty i dopasowuję cechy gospodarstwa domowego i cechy indywidualne, stosując dopasowanie skłonności. Zasadniczo z danymi panelowymi będą różne optymalne dopasowania w każdym wieku. Na przykład: jeśli A jest traktowane, B i C są kontrolami, a wszystkie z nich urodziły się w 1980 r., A i B można dopasować w 1980 r. W wieku 0, podczas gdy A i C są dopasowane w 1981 r. W wieku 1 i tak dalej . Również A można dopasować do własnych wartości sprzed obróbki z poprzednich lat.

Aby obejść ten problem, wziąłem średnią wszystkich zmiennych zmieniających się w czasie, dzięki czemu dopasowanie może zidentyfikować osoby, które są średnio najbardziej podobne w czasie trwania próby, i dopasowuję osobno dla każdej grupy wiekowej od 0 do 18 lat. Niestety, to wciąż dopasowuje inną jednostkę kontrolną do każdej leczonej jednostki w grupie wiekowej.

Gdyby ktoś skierował mnie w stronę metody dopasowania parami z danymi panelu w Stacie, byłoby to bardzo mile widziane.

Andy
źródło

Odpowiedzi:

9

Zasadniczo musisz utworzyć zestaw danych szerokoformatowych ze wszystkimi cechami, które są istotne dla procedury dopasowywania, wykonać dopasowanie w tym zestawie danych przekrojowych, a następnie użyć identyfikatora, aby zidentyfikować pasującą parę w zestawie danych panelu. Oto kilka szczegółów:

  1. Służy reshapedo tworzenia zestawu danych wielkoformatowych. Sformatuj zmienne obróbki wstępnej w sposób, który chcesz wykorzystać w procedurze dopasowywania. Możesz po prostu wziąć średnią swoich zmiennych, jeśli masz wiele obserwacji dla jednej osoby, ale możesz również wymyślić inne sposoby (możesz również przechowywać wiele obserwacji tych samych zmiennych, takich jak zdrowie1, zdrowie2 i użyć wszystkich z nich w dopasowaniu ). Celem jest posiadanie zestawu danych z jedną obserwacją na osobę .

  2. Korzystając z tego zestawu danych, wykonaj procedurę dopasowywania za pomocą psmatch2.

  3. Scal informacje o dopasowanych przypadkach z oryginalnym zestawem danych. Odrzuć skrzynki, które nie są dopasowane itp. Nie jestem pewien szczegółów tutaj, ponieważ tak naprawdę nie znam staty, psmatch2ale myślę, że masz pomysł.

Wykonując te kroki, możesz dopasować przypadki na podstawie wszystkich informacji przed leczeniem i masz tylko jedno dopasowanie na jednostkę leczenia.

greg
źródło
3
Naprawdę nie wiem, dlaczego ten post został odrzucony, ponieważ ta odpowiedź naprawdę pomaga. Zagłosuję ponownie. Dzięki, Greg!
Andy,
5

Nie ma takiej możliwości w Stacie ani żadnym innym oprogramowaniu, o którym wiem.

Jeśli próbujesz załatać tendencyjne dopasowanie estymatora za pomocą technik danych panelowych, oto jedno podejście, które może działać. Jeśli możesz założyć, że dopasowywanie zajmuje się niektórymi, ale nie wszystkimi stronniczościami selekcji, ale że tendencyjność w dużej mierze pozostaje stała w czasie, możesz usunąć niezmienną czasowo część tendencyjności, konstruując osobne szacunkowe dopasowania w każdym okresie i biorąc różnica.

Niech będzie okresem wstępnego leczenia, a będzie pocztą. Jeśli wynik stanu nietraktowanego zadowalającyttY0

E[Y0t|X,D=1]E[Y0t|X,D=0]=E[Y0t|X,D=1]E[Y0t|X,D=0]=Bias,
a następnie jeśli i , możesz uzyskaćΔ M t =BisΔ M t " -Δ M t =ÆTTΔtM=ΔTT+BiasΔtM=BiasΔtMΔtM=ΔTT

Artykuły Heckman, Ichimura, Smith i Todd 1998 Econometrica oraz Eichler i Lechner 2002 Labor Economics są przykładami tego podejścia. Z drugiej strony 150 leczonych obserwacji może nie wystarczyć do tego podejścia.

Dimitriy V. Masterov
źródło
1
Powinno być możliwe, aby dopasować osoby w parach dla danych panelowych, ponieważ te dwie prace ( papierowe1 , paper2 ) zrobić to jak dobrze. Niestety autorzy nie podają dokładnie, jak to zrobili. Pomysł, który opisujesz w Heckman i wsp. (1998), jest właśnie powodem użycia Diff-in-Diff po dopasowaniu parami.
Andy
Nie jest dla mnie jasne, że dopasowują panele, ale masz rację, że procedury są niejasne. Autorzy napisali pscore, co sygnalizuje pewną chęć pomocy innym. Być może e-mail do nich wyjaśni rzeczy. Zgłosić, co mówią. To ważne pytanie.
Dimitriy V. Masterov
0

Kroki:

  1. Jak szczegółowo wspomniał Greg, do wygenerowania dopasowania można użyć przekrojowego zestawu danych, dotyczącego środków obróbki wstępnej lub określonego okresu obróbki wstępnej.

  2. Za pomocą całego panelu przypisujesz zmienne wskaźnikowe dla
    a. traktowane indywidualnie
    b. traktowany okres, ten ostatni jest równy zeru, gdy tylko nastąpi leczenie dla leczonej osoby.

    Ponieważ moment, w którym leczony okres zmienia się od 0 do 1, różni się u poszczególnych osób i nigdy nie zmienia się na 1 dla nieleczonego, musisz przypisać ten sam punkt początkowy od leczonego dopasowania do nieleczonego dopasowania. Jest to intuicyjne, ale nadal chciałbym zobaczyć dobre referencje uzasadniające to podejście, którego do tej pory nie znalazłem.

Konfiguracja regresji byłaby następująca:

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

gdzie termin interakcji daje efekt leczenia.

Matthias
źródło
-2

Czy rozważałeś użycie polecenia nnmatch ?

Używam tego polecenia i jest ono dość obszerne. Uwzględnia różne algorytmy dopasowania, a także przypadki, w których wynik skłonności jest taki sam dla niektórych osób z grupy kontrolnej. Oczywiście, leczenie tego przypadku zależy od algorytmu dopasowywania, jeśli weźmiesz k-najbliższego sąsiada, jądro lub cokolwiek innego.

Stat Tistician
źródło
W cytowanym artykule nie widzę wzmianki o danych panelu. Czy używałeś tego do danych panelu? Jeśli tak, proszę podać szczegółowe informacje i podać kod, aby odpowiedzieć na pytanie OP.
Metryki
Dokładne dopasowanie jest łatwiejsze, ale ogólny nnmatch jest bardziej skomplikowany, ponieważ nie przechowuje pasujących identyfikatorów w bieżącym zestawie danych, ale w osobnym. Skończę z jednym zestawem danych dla każdej grupy wiekowej, które należy połączyć z oryginalnymi danymi. Scalanie w tym przypadku nie działa, ponieważ pasujące cechy nie jednoznacznie identyfikują osoby w oryginalnych danych. Niestety nie zapewnia to rozwiązania.
Andy,