Różnica między danymi panelu a modelem mieszanym

14

Chciałbym poznać różnicę między analizą danych panelowych a analizą modelu mieszanego. Według mojej wiedzy, zarówno dane panelowe, jak i modele mieszane wykorzystują efekty stałe i losowe. Jeśli tak, to dlaczego mają różne nazwy? A może są synonimami?

Przeczytałem następujący post, który opisuje definicję efektu stałego, losowego i mieszanego, ale nie odpowiada dokładnie na moje pytanie: Jaka jest różnica między modelami efektu stałego, efektu losowego i efektu mieszanego?

Byłbym również wdzięczny, gdyby ktoś mógł skierować mnie do krótkiego (około 200 stron) odnośnika dotyczącego analizy modelu mieszanego. Żeby dodać, wolałbym mieszane odniesienia do modelowania, niezależnie od traktowania oprogramowania. Głównie teoretyczne wyjaśnienie modelowania mieszanego.

Beta
źródło
Powiązane: stats.stackexchange.com/questions/238214
mówi Przywróć Monikę

Odpowiedzi:

22

Zarówno dane panelowe, jak i dane modelu mieszanego efektu dotyczą podwójnie indeksowanych zmiennych losowych . Pierwszy indeks dotyczy grupy, drugi dotyczy osób w grupie. W przypadku danych panelowych drugim indeksem jest zwykle czas i zakłada się, że obserwujemy jednostki w czasie. Gdy czas jest drugim wskaźnikiem dla modelu z efektem mieszanym, modele nazywane są modelami podłużnymi. Model mieszanego efektu najlepiej rozumieć w kategoriach regresji 2 poziomów. (Dla ułatwienia prezentacji załóż tylko jedną zmienną objaśniającą)yij

Regresja pierwszego poziomu jest następująca

yij=αi+xijβi+εij.

Jest to po prostu wyjaśnione jako regresja indywidualna dla każdej grupy. Regresja drugiego poziomu próbuje wyjaśnić zmienność współczynników regresji:

β i = δ 0 + z i 2 δ 1 + v i

αi=γ0+zi1γ1+ui
βi=δ0+zi2δ1+vi

Po zastąpieniu drugiego równania pierwszym otrzymujesz

yij=γ0+zi1γ1+xijδ0+xijzi2δ1+ui+xijvi+εij

Naprawione efekty są ustalone, co oznacza . Efektami losowymi są i .γ0,γ1,δ0,δ1uivi

Teraz w przypadku danych panelowych zmienia się terminologia, ale nadal można znaleźć wspólne punkty. Modele efektów losowych danych panelu są takie same jak w przypadku modelu efektów mieszanych

αi=γ0+ui
βi=δ0

wraz z modelem

yit=γ0+xitδ0+ui+εit,

gdzie są efektami losowymi.ui

Najważniejszą różnicą między modelem efektów mieszanych a modelami danych panelowych jest traktowanie regresorów . W przypadku modeli efektów mieszanych są to zmienne nieprzypadkowe, natomiast w panelowych modelach danych zawsze zakłada się, że są one losowe. Staje się to ważne przy określaniu, jaki jest model efektów stałych dla danych panelu.xij

Dla modelu efektu mieszanego zakłada się, że efekty losowe i są niezależne od a także od i , co zawsze jest prawdą, gdy i są stałe. Jeśli dopuścimy do stochastycznego staje się to ważne. Zatem model efektów losowych dla danych panelowych zakłada, że nie jest skorelowane z . Ale model z efektem stałym, który ma tę samą formęuiviεijxijzixijzixijxitui

yit=γ0+xitδ0+ui+εit,

pozwala na korelację i . Nacisk kładziony jest zatem wyłącznie na konsekwentne szacowanie . Odbywa się to poprzez odjęcie poszczególnych środków:xituiδ0

yity¯i.=(xitx¯i.)δ0+εitε¯i.,

i używanie prostego OLS do wynikającego problemu regresji. Algebraicznie zbiega się to z problemem regresji zmiennej najmniejszej zmiennej pozornej, w którym zakładamy, że są parametrami stałymi. Stąd nazwa modelu efektów stałych.ui

W terminologii efektów stałych i losowych efektów w ekonometrii danych panelowych jest wiele historii, które pominąłem. Moim osobistym zdaniem modele te najlepiej wyjaśnić w „ Ekonometrycznej analizie danych przekroju i panelu ” Wooldridge'a . O ile mi wiadomo, nie ma takiej historii w modelu efektów mieszanych, ale z drugiej strony pochodzę z ekonometrii, więc mogę się mylić.

mpiktas
źródło
...+xijvi+ui+εij
To wyjaśnienie jest wspaniałe! Bardzo dziękuję za wysiłek włożony w przygotowanie tak wspaniałej prezentacji. Chcę tylko o jedno pytanie. Co masz na myśli przez regresję 2 poziomów?
Beta
2
@Ari, regresja drugiego poziomu jest regresją dla współczynników regresji regresji pierwszego poziomu. Regresja pierwszego poziomu próbuje wyjaśnić zmienność w obrębie grupy, podczas gdy regresja drugiego poziomu próbuje wyjaśnić zmienność w grupach. Ten podział jest sztuczny, ale podoba mi się, ponieważ przynajmniej wydaje mi się naturalny. Ten typ podziału jest również stosowany w hierarchicznych modelach Bayesa.
mpiktas,
δ0
3

Rozumiem, że szukasz tekstu opisującego teorię modelowania mieszanego bez odniesienia do pakietu oprogramowania.

Polecam wielopoziomowego analizy, wprowadzenie do podstawowego i zaawansowanego modelowania wielopoziomowego Tom Snijders i Roel Bosker, o 250pp. Na końcu znajduje się rozdział o oprogramowaniu (który jest obecnie nieco przestarzały), ale pozostała część jest bardzo przystępną teorią.

Muszę jednak powiedzieć, że zgadzam się z powyższym zaleceniem dotyczącym modeli wielopoziomowych i podłużnych wykorzystujących Statę Sophii Rabe-Hesketh i Andersa Skrondal. Książka jest bardzo teoretyczna, a komponent oprogramowania jest naprawdę tylko miłym dodatkiem do obszernego tekstu. Zwykle nie używam Staty, a tekst siedzi na moim biurku i jest wyjątkowo dobrze napisany. Jest jednak znacznie dłuższy niż 200pp.

Poniższe teksty zostały napisane przez obecnych ekspertów w tej dziedzinie i byłyby przydatne dla każdego, kto chce uzyskać więcej informacji na temat tych technik (choć nie są one specjalnie dostosowane do Twojej prośby): [Nie mogę połączyć się z nimi, ponieważ jestem nowy użytkownik, przepraszam]

Hoox, Joop (2010). Analiza wielopoziomowa, techniki i zastosowania.

Gelman, A. i Hill, J. (2006) Analiza danych przy użyciu regresji i modeli wielopoziomowych / hierarchicznych.

Singer, J. (2003) Applied Longitudinal Data Analysis: Modeling Change and Event Event

Raudenbush, SW, i Bryk, A., S. (2002). Hierarchiczne modele liniowe: zastosowania i metody analizy danych

Luke, Douglas, (2004). Modelowanie wielopoziomowe

Dodałbym również drugi tekst Wooldridge'a wspomniany powyżej, a także tekst R, a B ristol University Center for Multilevel Modeling ma wiele samouczków i informacji

Zagraj jeszcze raz
źródło
Dzięki Playitagain! Ten jest bardzo przydatną informacją. Nawet twoje imię jest interesujące :)
Beta
2

Ja też zastanawiałem się nad różnicą między nimi, a ostatnio znalazłem odniesienie do tego tematu. Rozumiem, że „dane panelowe” to tradycyjna nazwa zbiorów danych reprezentujących „przekrój lub grupę osób, które są okresowo badane przez dany przedział czasu ". Tak więc „panel” jest strukturą grupy w zbiorze danych, a posiadanie takiej grupy najbardziej naturalnym sposobem analizy tego typu danych jest podejście oparte na modelowaniu mieszanym.

Dobrym odniesieniem (niezależnie od tego, czy „mówisz” R czy nie) na temat modelowania efektów mieszanych jest szkic (?) Nadchodzącej książki Douglasa Batesa ( lme4: Modelowanie efektów mieszanych z R ).

ils
źródło
1
Dzięki za referencje! Ale problem nadal pozostaje.
Beta,
2

@mpiktas udzielił dokładnej odpowiedzi. Chciałbym również zasugerować, czytając rozdział 7 dokumentacji dla pakietu plm w badania . Warto przeczytać dyskusję autorów na temat różnic między modelami mieszanymi a danymi panelowymi.

KarthikS
źródło
1

Jeśli użyjesz Staty, modeli wielopoziomowych i wzdłużnych Używanie Staty przez Sophię Rabe-Hesketh i Andersa Skrondal byłoby dobrym wyborem. W zależności od tego, czym dokładnie jesteś zainteresowany, 200 stron może mieć rację.

Dimitriy V. Masterov
źródło
Dzięki Dimitriy za referencje. Ale niestety nie używam STATA. Używam głównie SAS, a czasem R. Ale i tak dzięki.
Beta,
2
Słyszałem dobre rzeczy o wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html , ale sam tego nie przeczytałem.
Dimitriy V. Masterov,
Dzięki Dimitriy! To wygląda naprawdę obiecująco. Zaletą zadawania pytań zamiast gogglowania jest to, że uzyskuje się naprawdę dobre wyniki :)
Beta
1

Z mojego doświadczenia wynika, że ​​uzasadnieniem stosowania „ekonometrii panelu” jest to, że estymatory panelu „stałych efektów” można wykorzystać do kontroli różnych form pomijanego zmiennego obciążenia.

Możliwe jest jednak wykonanie tego rodzaju estymacji w modelu wielopoziomowym z zastosowaniem metody typu Mundlak , tzn. Uwzględnienie średnich grupowych jako dodatkowych regresorów. Takie podejście usuwa korelację między terminem błędu a czynnikami pominiętymi na poziomie grupy potencjalnej, ujawniając współczynnik „wewnątrz”. Jednak z nieznanego mi powodu nie dzieje się tak zwykle w badaniach stosowanych. Te slajdy i ten dokument stanowią opracowanie.

EddieMcGoldrick
źródło
(+1) Socjolog często interpretuje środki grupowe jako efekty kontekstowe (chociaż częściej dotyczy to zagnieżdżonych danych przekrojowych niż danych panelowych szeregów czasowych). Będę musiał przeczytać pokrewną notatkę Manski (1993) ( tutaj PDF ) ma artykuł pokazujący, w jaki sposób takie efekty kontekstowe często nie są identyfikowane. Z „powodów, dla których tak się nie dzieje”, podejrzewam, że między praktyką nauk społecznych jest tyle samo różnicy, co dobre pytanie.
Andy W