W jakich warunkach należy stosować analizę wielopoziomową / hierarchiczną?

36

W jakich warunkach należy rozważyć zastosowanie analizy wielopoziomowej / hierarchicznej zamiast analiz bardziej podstawowych / tradycyjnych (np. ANOVA, regresja OLS itp.)? Czy istnieją sytuacje, w których można to uznać za obowiązkowe? Czy istnieją sytuacje, w których stosowanie analizy wielopoziomowej / hierarchicznej jest nieodpowiednie? Wreszcie, jakie są dobre zasoby dla początkujących do nauki analizy wielopoziomowej / hierarchicznej?

Patrick
źródło
3
Zobacz także: stats.stackexchange.com/a/38430/5739
StasK

Odpowiedzi:

22

Gdy struktura danych jest naturalnie hierarchiczna lub zagnieżdżona, modelowanie wielopoziomowe jest dobrym kandydatem. Mówiąc bardziej ogólnie, jest to jedna metoda modelowania interakcji.

Naturalnym przykładem jest sytuacja, w której dane pochodzą ze zorganizowanej struktury, takiej jak kraj, stan, okręgi, w których chcesz zbadać efekty na tych poziomach. Innym przykładem, w którym można dopasować taką strukturę, jest analiza podłużna, w której powtarzane są pomiary od wielu osób w czasie (np. Pewna reakcja biologiczna na dawkę leku). Jeden poziom twojego modelu zakłada średnią reakcję grupy dla wszystkich pacjentów w czasie. Kolejny poziom twojego modelu pozwala następnie na zaburzenia (efekty losowe) ze średniej grupy, aby modelować indywidualne różnice.

Popularną i dobrą książką na początek jest analiza danych Gelmana z wykorzystaniem regresji i modeli wielopoziomowych / hierarchicznych .

ars
źródło
3
Popieram tę odpowiedź i chciałbym tylko dodać kolejne świetne odniesienie do tego tematu: Singer's Applied Longitudinal Data Analysis tekst < gseacademic.harvard.edu/alda >. Chociaż jest on specyficzny dla analizy podłużnej, ogólnie daje ładny przegląd MLM. Uważam również, że Snidjers and Bosker's Multilevel Analysis są dobre i czytelne < stat.gamma.rug.nl/multilevel.htm >. John Fox zapewnia również ładne wprowadzenie do tych modeli w języku R tutaj < cran.r-project.org/doc/contrib/Fox-Companion/… >.
Brett,
Dziękujemy wszystkim za odpowiedzi :) Jako pytanie uzupełniające, czy większość danych nie może być konceptualizowana jako hierarchicznie / zagnieżdżona? Na przykład w większości badań psychologicznych istnieje wiele zmiennych zależnych (kwestionariusze, odpowiedzi na bodźce itp.) Zagnieżdżone w obrębie poszczególnych osób, które są następnie zagnieżdżone w dwóch lub więcej grupach (przypisane losowo lub nieprzypadkowo). Czy zgodziłbyś się, że reprezentuje to naturalnie hierarchiczną i / lub zagnieżdżoną strukturę danych?
Patrick
Gdyby któryś z was wielopoziomowy / hierarchiczny guru mógł poświęcić kilka minut, byłbym bardzo wdzięczny, gdybyście mogli rozważyć pytania analityczne postawione w innym poście ( stats.stackexchange.com/questions/1799/… ). W szczególności, czy uważasz, że dane dotyczące odczuwania bólu przedstawione w tym poście będą lepiej analizowane przez analizy hierarchiczne niż analizy niehierarchiczne? A może nie miałoby to znaczenia, a nawet byłoby niewłaściwe? Dzięki: D
Patrick
18

Centrum modelowania wielopoziomowego ma kilka dobrych bezpłatnych samouczków online do modelowania wielopoziomowego, a także samouczki oprogramowania do dopasowywania modeli zarówno w oprogramowaniu MLwiN, jak i STATA.

Potraktuj to jako herezję, ponieważ nie przeczytałem więcej niż rozdziału w książce, ale hierarchiczne modele liniowe: zastosowania i metody analizy danych Stephen W. Raudenbush, Anthony S. Bryk jest wysoce zalecany. Przysięgałem też, że w Springer Use R jest książka na temat modelowania wielopoziomowego przy użyciu oprogramowania R. serial, ale nie mogę go obecnie znaleźć (myślałem, że napisali go ci sami ludzie, którzy napisali książkę A Beginner's Guide to R).

edycja: Książka o używaniu R dla modeli wielopoziomowych to Mieszane modele efektów i rozszerzenia w ekologii z R autor: Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM

powodzenia

Andy W.
źródło
9

Oto inne spojrzenie na stosowanie modeli wielopoziomowych vs. regresyjnych: W ciekawym artykule Afshartousa i de Leeuw pokazują, że jeśli cel modelowania jest predykcyjny (tj. Przewidywanie nowych obserwacji), wybór modelu jest inny niż w przypadku celem jest wnioskowanie (gdy próbujesz dopasować model do struktury danych). Mam na myśli papier, o którym mowa

Afshartous, D., de Leeuw, J. (2005). Prognozy w modelach wielopoziomowych. J. Educat. Behav Statystyk. 30 (2): 109–139.

Właśnie znalazłem inny powiązany artykuł tych autorów tutaj: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf

Galit Shmueli
źródło
6

yis=αs+Xisβs+ϵis,
yisisXisβsαsϵjasαs

Z modelem w ręku problem staje się szacunkowy. Jeśli masz wiele szkół i dużo danych dla każdej szkoły, ładne właściwości OLS (patrz Angrist i Pischke, głównie nieszkodliwy ..., do bieżącej recenzji) sugerują, że chcesz tego użyć, z odpowiednimi korektami standardowych błędów w celu uwzględnienia zależności oraz za pomocą zmiennych zastępczych i interakcji, aby uzyskać efekty na poziomie szkoły i przechwytywanie specyficzne dla szkoły. OLS może być nieefektywny, ale jest tak przejrzysty, że łatwiej będzie przekonać sceptycznych odbiorców, jeśli go użyjesz. Ale jeśli twoje dane są w pewien sposób rzadkie - szczególnie jeśli masz niewiele obserwacji dla niektórych szkół - możesz narzucić więcej „struktury” na problem. Możesz chcieć „pożyczyć siłę” od szkół z większą próbą, aby poprawić głośne oszacowania, które można uzyskać w szkołach z małą próbką, gdyby oszacowania zostały wykonane bez struktury. Następnie możesz przejść do modelu efektów losowych oszacowanego za pomocą FGLS,

W tym przykładzie użycie modelu wielopoziomowego (jednak ostatecznie zdecydujemy się go dopasować) jest motywowane bezpośrednim zainteresowaniem przechwytywaniem na poziomie szkoły. Oczywiście w innych sytuacjach parametry na poziomie grupy mogą być jedynie uciążliwością. To, czy trzeba je dostosować (a zatem nadal pracować z jakimś rodzajem modelu wielopoziomowego) zależy od tego, czy zachowują się pewne założenia warunkowej egzogeniczności. W związku z tym zaleciłbym zapoznanie się z literaturą ekonometryczną na temat metod danych panelowych; większość danych stamtąd przenosi się na ogólne zgrupowane konteksty danych.

Cyrus S.
źródło
1
To jest stary wątek, ale na wypadek, gdybyś to przeczytał: OLS ze zmiennymi zmiennymi i interakcjami nie zapożycza siły, jak inne techniki, o których wspominasz, prawda? Mam dane, w których podzieliłem analizę na dwie części i użyłem dwóch poleceń lm (model liniowy R) do modelowania tych dwóch części. Wprowadziłem zmienną fikcyjną, aby wskazać dwie części, a następnie ponownie użyłem lm w tym „ujednoliconym” modelu i odpowiedzi są bliskie, ale nie takie same. Moje pytanie brzmiałoby: czy ta odpowiedź jest „lepsza”, czy po prostu inna z powodu algorytmu?
Wayne
@Wayne: jeśli używałeś manekinów i pełnego zestawu interakcji w drugim, oszacowania punktowe powinny być takie same. Standardowe błędy mogą się różnić, ponieważ druga metoda może zakładać wyższy stopień swobody, ale chciałbyś sprawdzić, czy jest to prawidłowe założenie modelowania.
Cyrus S
6

Modelowanie wielopoziomowe jest odpowiednie, jak sama nazwa wskazuje, gdy dane mają wpływ na różne poziomy (indywidualne, w czasie, w domenach itp.). Modelowanie jednopoziomowe zakłada, że ​​wszystko dzieje się na najniższym poziomie. Inną rzeczą, którą robi model wielopoziomowy, jest wprowadzenie korelacji między jednostkami zagnieżdżonymi. Tak więc jednostki poziomu 1 w ramach tej samej jednostki poziomu 2 zostaną skorelowane.

W pewnym sensie można myśleć o modelowaniu wielopoziomowym jako znajdowaniu środka między „błędem indywidualistycznym” a „błędem ekologicznym”. Błąd indywidualistyczny występuje wtedy, gdy ignorowane są „efekty społeczne”, takie jak na przykład zgodność stylu nauczyciela ze stylem uczenia się ucznia (zakłada się, że efekt pochodzi od samej osoby, więc po prostu wykonaj regresję na poziomie 1). mając na uwadze, że „błąd ekologiczny” jest odwrotny i byłoby jak przypuszczenie, że najlepszy nauczyciel miałby uczniów z najlepszymi ocenami (i aby poziom 1 nie był potrzebny, po prostu wykonaj regresję całkowicie na poziomie 2). W większości przypadków żadne z nich nie jest odpowiednie (uczeń-nauczyciel jest przykładem „klasycznym”).

yjajotjot

prawdopodobieństwo prawdopodobieństwa
źródło
4

Mówiąc ogólnie, hierarchiczna analiza bayesowska (HB) doprowadzi do wydajnych i stabilnych szacunków na poziomie indywidualnym, chyba że dane są takie, że efekty na poziomie indywidualnym są całkowicie jednorodne (nierealistyczny scenariusz). Wydajność i stabilne oszacowania parametrów modeli HB stają się naprawdę ważne, gdy masz rzadkie dane (np. Mniej nie obs od liczby parametrów na poziomie indywidualnym) i gdy chcesz oszacować indywidualne oszacowania poziomu.

Jednak modele HB nie zawsze są łatwe do oszacowania. Dlatego, chociaż analiza HB zwykle przebija analizę inną niż HB, musisz wyważyć koszty względne względem korzyści w oparciu o swoje wcześniejsze doświadczenia i obecne priorytety pod względem czasu i kosztów.

Powiedziawszy, że jeśli nie jesteś zainteresowany indywidualnymi oszacowaniami poziomu, możesz po prostu oszacować model poziomu agregującego, ale nawet w tych kontekstach oszacowanie modeli agregujących przez HB przy użyciu indywidualnych oszacowań poziomu może mieć sens.

Podsumowując, dopasowanie modeli HB jest zalecanym podejściem, o ile masz czas i cierpliwość, aby je dopasować. Następnie można użyć modeli agregatów jako punktu odniesienia do oceny wydajności modelu HB.


źródło
Dziękuję za szczegółową odpowiedź Srikant :) Obecnie nie znam analiz bayesowskich, ale jestem jednym z tematów, które zamierzałem zbadać. Czy hierarchiczna analiza bayesowska różni się od innych analiz wielopoziomowych / hierarchicznych omawianych na tej stronie? Jeśli tak, czy masz zalecane zasoby dla zainteresowanych stron, aby dowiedzieć się więcej?
Patrick
βjaN.(β¯,Σ)β¯N.(.,.)
4

Nauczyłem się od Snijdersa i Boskera, Analiza wielopoziomowa: wprowadzenie do podstawowego i zaawansowanego modelowania wielopoziomowego. Wydaje mi się, że jest to bardzo dobry pomysł dla początkującego, ponieważ muszę być tikiem, jeśli chodzi o te sprawy i ma to dla mnie sens.

Popieram także Gelmana i Hilla, naprawdę genialną książkę.

Chris Beeley
źródło
1

Modele wielopoziomowe powinny być stosowane, gdy dane są zagnieżdżone w strukturze hierarchicznej, szczególnie gdy występują znaczące różnice między jednostkami wyższego poziomu w zmiennej zależnej (np. Orientacja osiągnięć uczniów jest różna między uczniami, a także między klasami, z którymi studenci są zagnieżdżone). W tych okolicznościach obserwacje są skupione, a nie niezależne. Nieuwzględnienie klastrowania prowadzi do niedoszacowania błędów oszacowań parametrów, tendencyjnego testowania istotności i tendencji do odrzucania wartości zerowej, kiedy należy ją zachować. Uzasadnienie stosowania modeli wielopoziomowych, a także dokładne wyjaśnienie sposobu przeprowadzania analiz, zapewnia

Raudenbush, SW Bryk, AS (2002). Hierarchiczne modele liniowe: aplikacje i metody analizy danych. 2. edycja Newbury Park, Kalifornia: Sage.

Książka R & B jest również dobrze zintegrowana z autorskim pakietem oprogramowania HLM, co znacznie pomaga w nauce pakietu. Wyjaśnienie, dlaczego modele wielopoziomowe są konieczne i preferowane w stosunku do niektórych alternatyw (takich jak manekin kodujący jednostki wyższego poziomu), przedstawiono w klasycznej pracy

Hoffman, DA (1997). Przegląd logiki i uzasadnienia hierarchicznych modeli liniowych. Journal of Management, 23, 723-744.

Artykuł Hoffmana można pobrać bezpłatnie, jeśli utworzysz Google „Hoffman 1997 HLM” i uzyskasz dostęp do pliku pdf online.

StatisticsDoc Consulting
źródło