Kiedy powinienem * nie * pozwolić, aby efekt stały zmieniał się na różnych poziomach efektu losowego w modelu efektów mieszanych?

16

Biorąc pod uwagę przewidywaną zmienną (P), efekt losowy (R) i efekt stały (F), można by dopasować dwa * modele efektów mieszanych ( składnia Lme4 ):

m1 = lmer( P ~ (1|R) + F )
m2 = lmer( P ~ (1+F|R) + F)

Jak rozumiem, drugim modelem jest ten, który pozwala, aby efekt stały zmieniał się na różnych poziomach efektu losowego.

W moich badaniach zwykle używam modeli efektów mieszanych do analizy danych z eksperymentów przeprowadzonych na wielu ludzkich uczestnikach. Uczestnika modeluję jako efekt losowy, a manipulacje eksperymentalne jako efekty ustalone. Myślę, że a priori sensowne jest, aby stopień, w jakim ustalone efekty wpływają na wydajność eksperymentu, był różny dla różnych uczestników. Mam jednak problem z wyobrażeniem sobie okoliczności, w których nie powinienem ani nie pozwolić, aby ustalone efekty różniły się w zależności od poziomu efektu losowego, więc moje pytanie brzmi:

Kiedy nie należy dopuszczać, aby ustalony efekt zmieniał się na różnych poziomach efektu losowego?

Mike Lawrence
źródło
Nadal nie rozumiem w pełni składni lme4, więc jestem ciekawy odpowiedzi. Ale mam przeczucie, że wiąże się to z następującą różnicą: P to ilość czasu, jaką uczeń spędza na odrabianiu lekcji, R to leczenie na poziomie klasy, a F to uczeń. (Powinniśmy również mieć losowy efekt dla samej klasy.) Jeśli wszyscy uczniowie będą poddawani różnym czasom leczenia R w różnych okresach, poziomy F są porównywalne we wszystkich klasach. Jeśli mierzymy jednocześnie całą szkołę, mamy różnych uczniów w każdej klasie, więc poziomy F w różnych klasach nie mają ze sobą nic wspólnego.
Thomas Levine

Odpowiedzi:

11

Nie jestem ekspertem w modelowaniu z efektami mieszanymi, ale pytanie jest o wiele łatwiej odpowiedzieć, jeśli zostanie przeformułowane w kontekście modelowania regresji hierarchicznej. Zatem nasze obserwacje mają dwa indeksy i z indeksem reprezentującym klasę i członków klasy. Modele hierarchiczne pozwalają dopasować regresję liniową, w której współczynniki różnią się w zależności od klasy: F i j i jPijFijij

Yij=β0i+β1iFij

To jest nasza regresja pierwszego poziomu. Regresja drugiego poziomu odbywa się na współczynnikach pierwszego regresji:

β0i=γ00+u0iβ1i=γ01+u1i

kiedy zastąpimy to regresją pierwszego poziomu, otrzymamy

Yij=(γ0+u0i)+(γ01+u1i)Fij=γ0+u0i+u1iFij+γ01Fij

Tutaj są ustalonymi efektami, a są efektami losowymi. Szacunkowe modele mieszane i wariancje .u γ uγuγu

Model, który zapisałem, odpowiada lmerskładni

P ~ (1+F|R) + F

Teraz, jeśli bez losowego terminu, który otrzymamyβ1i=γ01

Yij=γ0+u0i+γ01Fij

co odpowiada lmerskładni

P ~ (1|R) + F

Pojawia się zatem pytanie, kiedy możemy wykluczyć termin błędu z regresji drugiego poziomu? Odpowiedzią kanoniczną jest to, że gdy jesteśmy pewni, że regresory (tutaj ich nie mamy, ale możemy je uwzględnić, to naturalnie są stałe w ramach klas) w regresji drugiego poziomu w pełni wyjaśniają wariancję współczynników między klasami.

Tak więc w tym konkretnym przypadku, jeśli współczynnik nie zmienia się, lub alternatywnie wariancja jest bardzo mała, powinniśmy się zastanowić, że prawdopodobnie jesteśmy lepsi w pierwszym modelu. u 1 iFiju1i

Uwaga . Podałem tylko wyjaśnienie algebraiczne, ale myślę, że mając to na uwadze, łatwiej jest wymyślić konkretny zastosowany przykład.

mpiktas
źródło
Gdyby pierwsze równanie zawierało również błąd:Yij=β0i+β1iFij+eij
Nikita Samoylov
tak, ale myślę, że pominąłem to dla jasności.
mpiktas,
10

Możesz myśleć o „stałym efekcie” jako o „losowym efekcie” ze składnikiem wariancji równym zero.

Zatem prosta odpowiedź na pytanie, dlaczego nie pozwolisz, aby ustalony efekt się zmieniał, jest niewystarczającym dowodem na „wystarczająco dużą” składową wariancji. Dowody powinny pochodzić zarówno z wcześniejszych informacji, jak i danych. Jest to zgodne z podstawową zasadą „brzytwy okazjonalnej”: nie komplikuj swojego modelu bardziej, niż powinien.

Myślę o liniowych modelach mieszanych w następujący sposób, wypisz regresję wielokrotną w następujący sposób:

Y=Xβ+Zu+e

Więc to „stała” część modelu, to „losowa” część, a to pozostałość w stylu OLS. Mamy , dla parametrów wariancji „losowego efektu” i . To daje standardowe wyniki , co oznacza, że ​​mamy:XβZueuN(0,D(θ))θeN(0,σ2I)(Zu+e)N(0,ZD(θ)ZT+σ2I)

YN(Xβ,ZD(θ)ZT+σ2I)

Porównaj to z regresją OLS (która ma ), a otrzymamy:Z=0

YN(Xβ,σ2I)

Tak więc „losowa” część modelu może być postrzegana jako sposób na określenie wcześniejszych informacji o strukturze korelacji komponentu szumu lub błędu w modelu. OLS zasadniczo zakłada, że ​​jakikolwiek błąd ze stałej części modelu w jednym przypadku jest bezużyteczny do przewidywania każdego innego błędu, nawet jeśli z całą pewnością znamy stałą część modelu. Dodanie efektu losowego oznacza po prostu, że uważasz, że niektóre błędy mogą być przydatne w przewidywaniu innych błędów.

prawdopodobieństwo prawdopodobieństwa
źródło
5

To dość stare pytanie z kilkoma bardzo dobrymi odpowiedziami, jednak myślę, że można skorzystać z nowej odpowiedzi, aby zająć się bardziej pragmatyczną perspektywą.

Kiedy nie należy dopuszczać, aby ustalony efekt zmieniał się na różnych poziomach efektu losowego?

Nie zajmę się problemami opisanymi już w innych odpowiedziach, zamiast tego odniosę się do znanego teraz, choć wolę powiedzieć „niesławny” artykuł Barr i in. (2013), często nazywany po prostu „Zachowaj maksimum”

Barr, DJ, Levy, R., Scheepers, C. and Tily, HJ, 2013. Struktura losowych efektów do testowania potwierdzających hipotez: Utrzymuj wartość maksymalną. Journal of memory and language, 68 (3), s. 255–278.

W tym artykule autorzy twierdzą, że wszystkie ustalone efekty powinny się różnić w zależności od poziomów czynników grupujących (przechwytywanie losowe). Ich argument jest dość przekonujący - w zasadzie, że nie pozwalając im się zmieniać, nakłada ograniczenia na model. Jest to dobrze opisane w innych odpowiedziach. Istnieją jednak potencjalnie poważne problemy z tym podejściem, które opisuje Bates el al (2015):

Bates, D., Kliegl, R., Vasishth, S. i Baayen, H., 2015. Parsimonious mieszane modele. nadruk arXiv arXiv: 1506.04967

Warto zauważyć, że Bates jest głównym autorem lme4pakietu do dopasowywania modeli mieszanych w R, który jest prawdopodobnie najczęściej używanym pakietem dla takich modeli. Bates i wsp. Zauważają, że w wielu rzeczywistych aplikacjach dane po prostu nie będą obsługiwały maksymalnej struktury efektów losowych, często dlatego, że w każdej grupie nie ma wystarczającej liczby obserwacji dla odpowiednich zmiennych. Może się to objawiać w modelach, które nie są zbieżne lub występują w przypadkowych efektach. Świadczy o tym duża liczba pytań na tej stronie dotyczących takich modeli. Zauważają również, że Barr i wsp. Zastosowali stosunkowo prostą symulację, z „dobrze wychowanymi” losowymi efektami jako podstawą do opracowania. Zamiast tego Bates i wsp. Sugerują następujące podejście:

Zaproponowaliśmy (1) zastosowanie PCA do określenia wymiarowości macierzy wariancji-kowariancji struktury losowego efektu (2), aby początkowo ograniczyć parametry korelacji do zera, zwłaszcza gdy początkowa próba dopasowania modelu maksymalnego nie jest zbieżna, oraz (3) w celu usunięcia nieistotnych składników wariancji i powiązanych parametrów korelacji z modelu

W tym samym artykule zauważają również:

Co ważne, brak zbieżności nie wynika z wad algorytmu szacowania, ale jest bezpośrednią konsekwencją próby dopasowania modelu, który jest zbyt złożony, aby mógł być odpowiednio obsługiwany przez dane.

I:

maksymalne modele nie są konieczne do ochrony przed wnioskami antykonserwatywnymi. Ochronę tę zapewniają w pełni kompleksowe modele oparte na realistycznych oczekiwaniach co do złożoności danych. W statystyce, podobnie jak w innych dziedzinach nauki, parsymonia jest cnotą, a nie wadą.

Bates i in. (2015)

Z bardziej stosowanej perspektywy należy również rozważyć, czy proces generowania danych, biologiczna / fizyczna / chemiczna teoria leżąca u podstaw danych, powinien prowadzić analityka w kierunku określenia struktury efektów losowych.

Robert Long
źródło
„często z powodu niewystarczającej liczby obserwacji w każdej grupie” czy możesz to rozwinąć? Myślałem, że minimalna wymagana liczba na klaster to 1? To jest nawet Twoja zaakceptowana odpowiedź tutaj: stats.stackexchange.com/questions/388937/…
LuckyPal
@LuckyPal pytanie, które łączyłeś, dotyczy losowych przechwyceń, to dotyczy losowych stoków. Jak oszacowałbyś nachylenie dla próbki o wielkości 1?
Robert Long,
Punkt wzięty. Dzięki! +1 Ale możemy oszacować stały spadek z tylko jedną obserwacją na klaster, jeśli jest wystarczająca liczba skupień, prawda? To wydaje się trochę dziwne. Być może, gdy występują problemy z zbieżnością z przypadkowym nachyleniem z powodu wielkości próbki, oszacowanie nachylenia - niezależnie od tego, czy jest losowe, czy nie - może być ogólnie wątpliwe?
LuckyPal,
@LuckyPal tak, oszacowanie stałego nachylenia dotyczy wszystkich klastrów, więc zwykle nie stanowi to problemu. Zgadzam się, że oszacowanie losowego nachylenia za pomocą małych klastrów może spowodować problemy z konwergencją, ale nie powinno to wpłynąć na oszacowanie ustalonego nachylenia.
Robert Long,