Rozważmy liniowe efekty zauważony model typu: , gdzie jest niezauważalna ale czas niezmienny charakterystyczne i błąd, i indeksować odpowiednio indywidualne obserwacje i czas. Typowym podejściem w regresji efektów stałych (FE) byłoby usunięcie poprzez poszczególne manekiny (LSDV) / usunięcie znaczeń lub przez pierwsze różnicowanie.
Co zawsze się zastanawiałem: kiedy naprawdę jest „naprawione”?
To może wydawać się trywialne pytanie, ale pozwól mi podać dwa przykłady z mojego uzasadnienia.
Załóżmy, że mamy dzisiaj przesłuchać osobę i poprosić o jej dochodu, waga, itd. Więc dostać naszą . Przez następne 10 dni chodzimy do tej samej osoby i codziennie przesłuchujemy ją ponownie, więc mamy dla niej dane panelowe. Czy powinniśmy traktować niezauważone cechy jako ustalone na ten okres 10 dni, kiedy z pewnością zmienią się one w innym momencie w przyszłości? Za 10 dni jej osobista zdolność może się nie zmienić, ale zmieni się wraz z wiekiem. Lub zapytany w bardziej ekstremalny sposób: jeśli przeprowadzam wywiad z tą osobą co godzinę przez 10 godzin dziennie, jej nieobserwowane cechy prawdopodobnie zostaną naprawione w tej „próbce”, ale jak przydatne?
Teraz załóżmy, że zamiast tego przeprowadzamy z kimś wywiad co miesiąc od początku do końca jej życia przez około 85 lat. Co pozostanie naprawione w tym czasie? Miejsce urodzenia, płeć i kolor oczu najprawdopodobniej, ale poza tym prawie nie mogę myśleć o niczym innym. Ale co ważniejsze: co, jeśli istnieje jakaś cecha, która zmienia się w jednym punkcie jej życia, ale zmiana jest nieskończenie mała? Nie jest to już efekt stały, ponieważ zmienił się, gdy w praktyce ta charakterystyka jest quasi-stała.
Z punktu widzenia statystycznego stosunkowo jasne jest, co to jest ustalony efekt, ale z intuicyjnego punktu widzenia trudno mi to zrozumieć. Być może ktoś inny miał już te myśli i wpadł na spór o to, kiedy ustalony efekt jest naprawdę ustalonym efektem. Byłbym bardzo wdzięczny za inne przemyślenia na ten temat.
"all models are wrong, but some are useful"
- George Box .Odpowiedzi:
Jeśli interesuje Cię ten preparat do wnioskowania przyczynowego o wówczas nieznane ilości reprezentowane przez muszą być stabilne tylko przez czas trwania badania / danych dla ustalonych efektów w celu zidentyfikowania odpowiedniej wielkości przyczynowej. c iβ doja
Jeśli się, że ilości reprezentowane przez nie są stabilne nawet w tym okresie, to ustalone efekty nie będą robić tego, co chcesz. Następnie możesz zamiast tego użyć efektów losowych, chociaż jeśli oczekujesz korelacji między losowymi a , chciałbyś uwarunkować na w konfiguracji wielopoziomowej. Obawa o tę korelację jest często jedną z motywacji do sformułowania efektu o ustalonych efektach, ponieważ w wielu (ale nie wszystkich) okolicznościach nie musisz się o to martwić.c i X i c i ˉ X idoja doja Xja doja X¯ja
Krótko mówiąc, twoje obawy dotyczące zmienności ilości reprezentowanych przez są bardzo uzasadnione, ale głównie dlatego, że wpływają one na dane dotyczące okresu, który masz, a nie okresów, które mogłeś mieć lub które ostatecznie możesz mieć, ale nie masz.doja
źródło
Rozróżnienie między efektem stałym a efektem losowym zazwyczaj nie ma wpływu na oszacowania (edycja: przynajmniej w prostych nieskorelowanych przypadkach podręcznika), poza kwestią wydajności, ale znaczną implikacją dla testowania.
Na potrzeby testu pytanie, jakie powinieneś sobie zadać, to jaki poziom hałasu powinien pokonać Twój sygnał? Tj. Do jakiej populacji chcesz uogólnić swoje ustalenia? Korzystając z przykładu (1): czy powinna to być zmienność w tym samym dniu, dłuższy okres, czy zmienność w stosunku do różnych osób?
źródło
Który można postrzegać jako losowy spacer, cofając się w czasie:
Mogę zgadnąć dla twojego konkretnego przykładu ankiety, pytania mierzące dane dotyczące rodzaju przepływu (np. Dochód, waga) mogą być uzasadnione, ponieważ losowe spacery w szczególnie krótkich ramach czasowych. Dane dotyczące rodzajów zapasów (takie jak liczba wypitych dziś kaw ) wydają się nieco bardziej przewrotnym założeniem.
źródło