Co robię: używam modelu regresji nieciągłości (odtąd RDD) do badania różnic w wynagrodzeniach otrzymywanych przez osoby urodzone pod koniec roku i przez osoby urodzone na początku roku. Mam zestaw danych panelowych z obserwacjami przez 5 lat z rzędu i używam Staty. Moja zmienna bieżąca to liczba dni między datą urodzenia a końcem roku kalendarzowego. Data graniczna to 1 stycznia.
Problem: sumuję obserwacje na przestrzeni lat, ale robiąc to teraz, zmienna bieżąca nie przedstawia żadnej wartości po lewej stronie.
Moje proponowane rozwiązanie tego problemu: Przesuwam okno czasowe zainteresowania z stycznia na grudzień na lipiec i czerwiec. Oznacza to utworzenie nowej zmiennej bieżącej, w której 0 jest przypisane do osób urodzonych 1 lipca, ..., 30 jest przypisane do osób urodzonych 31 lipca ..., a 364 jest przypisane do osób urodzonych 30 czerwca. Teraz wartość graniczna wynosi 183, co nadal odpowiada 1 stycznia. Na koniec centruję również tę nową zmienną zgodnie z zaleceniami literatury na temat RDD, tak że 1 lipca to teraz -183, 1 stycznia to teraz 0, a 31 grudnia to +183. Teraz mam obserwacje zarówno po lewej, jak i po prawej stronie wartości odcięcia zmiennej biegnącej; ta nowa zmienna pozwala mi również uruchamiać RDD z różnymi szerokościami pasma.
Moje pytania:
- Co sądzisz o tych nowych zmienionych skalach? Czy to rozwiązanie można uznać za manipulację danymi w złym znaczeniu? (np. czy wymyślam dane i otrzymuję wyniki, które nie odzwierciedlają rzeczywistości?)
- Używam ostrego RDD, czy to właściwe?
- Jeśli ostre RDD jest odpowiednie, czy powinienem używać również rozmytego RDD jako sprawdzianu niezawodności? (Jako kontrole odporności używam już różnych narzędzi, jak tutaj zaproponowano )
To pytanie jest także obecne w „Cross Validated”.
źródło