Ściąglejszy ściągacz R.

160

Na tym forum toczy się wiele dyskusji na temat właściwego sposobu określania różnych modeli hierarchicznych lmer.

Pomyślałem, że wspaniale byłoby mieć wszystkie informacje w jednym miejscu. Kilka pytań na początek:

  1. Jak określić wiele poziomów, gdzie jedna grupa jest zagnieżdżony w drugiej: jest to (1|group1:group2)albo (1+group1|group2)?
  2. Jaka jest różnica między (~1 + ....)i (1 | ...)a (0 | ...)itp.?
  3. Jak określić interakcje na poziomie grupy?
ameba
źródło
11
Do ręcznych i trzy winiet dla lme4pakietu można znaleźć na CRAN
Henry
4
Oprócz materiałów CRAN, slajdy z wykładami i szkicami rozdziałów książki, którą Doug pisze na temat (G) LMM i R z lme4 dostępne z r-forge
Gavin Simpson
Bezpośredni link do wersji arXiv artykułu JSS autorstwa Batesa i in .: Dopasowywanie liniowych modeli mieszanych efektów za pomocą lme4 (w szczególności sekcja 2.2 „Zrozumienie wzorów mieszanych”). Zobacz także odpowiednią sekcję FAQ Ben Bolkera.
ameba
5
Prawdopodobnie używany język lmerma ogólne znaczenie statystyczne, a zatem nie jest wyłącznie kwestią programowania. Dlatego głosuję za utrzymaniem tego wątku otwartego.
whuber
2
@ whuber +1 W pełni się zgadzam.
ameba

Odpowiedzi:

180

Jaka jest różnica między (~ 1 + ....) a (1 | ...) i (0 | ...) itd.?

Załóżmy, że masz zmienną V1 przewidywaną przez zmienną kategoryczną V2, która jest traktowana jako efekt losowy, i zmienną ciągłą V3, która jest traktowana jako liniowy efekt stały. Używając składni Lmer, najprostszym modelem (M1) jest:

V1 ~ (1|V2) + V3

Ten model oszacuje:

P1: Globalny przechwytywanie

P2: Przechwytuje efekt losowy dla V2 (tj. Dla każdego poziomu V2, odchylenie przechwytywania tego poziomu od globalnego przechwytywania)

P3: Pojedyncza globalna ocena wpływu (nachylenia) V3

Następny najbardziej złożony model (M2) to:

V1 ~ (1|V2) + V3 + (0+V3|V2)

Ten model szacuje wszystkie parametry z M1, ale dodatkowo oszacuje:

P4: Wpływ V3 na każdym poziomie V2 (a dokładniej stopień, w jakim efekt V3 na danym poziomie odbiega od globalnego efektu V3), jednocześnie wymuszając zerową korelację między odchyleniami przechwytującymi a odchyleniami efektu V3 między poziomami V2 .

To ostatnie ograniczenie jest złagodzone w ostatecznym najbardziej złożonym modelu (M3):

V1 ~ (1+V3|V2) + V3

W którym szacowane są wszystkie parametry z M2, umożliwiając jednocześnie korelację między odchyleniami przechwytującymi a odchyleniami efektu V3 w obrębie poziomów V2. Tak więc w M3 szacowany jest dodatkowy parametr:

P5: Korelacja między odchyleniami przechwytującymi a odchyleniami V3 na różnych poziomach V2

Zwykle obliczane są pary modeli, takie jak M2 i M3, a następnie porównywane w celu oceny dowodów na korelacje między ustalonymi efektami (w tym globalnym przechwytywaniem).

Teraz rozważ dodanie kolejnego predyktora efektu stałego, V4. Model:

V1 ~ (1+V3*V4|V2) + V3*V4

oszacowałby:

P1: Globalny przechwytywanie

P2: Pojedyncza globalna ocena wpływu V3

P3: Pojedyncza globalna ocena wpływu V4

P4: Pojedyncza globalna ocena dla interakcji między V3 i V4

P5: Odchylenia punktu przecięcia od P1 na każdym poziomie V2

P6: Odchylenia efektu V3 od P2 na każdym poziomie V2

P7: Odchylenia efektu V4 od P3 na każdym poziomie V2

P8: Odchylenia interakcji V3-przez-V4 od P4 na każdym poziomie V2

P9 Korelacja między P5 i P6 na różnych poziomach V2

P10 Korelacja między P5 i P7 na różnych poziomach V2

P11 Korelacja między P5 i P8 na różnych poziomach V2

P12 Korelacja między P6 i P7 na różnych poziomach V2

P13 Korelacja między P6 i P8 na różnych poziomach V2

P14 Korelacja między P7 i P8 na różnych poziomach V2

Uff , to dużo parametrów! I nawet nie zadałem sobie trudu, aby wymienić parametry wariancji oszacowane przez model. Co więcej, jeśli masz zmienną kategorialną z więcej niż 2 poziomami, którą chcesz zamodelować jako efekt stały, zamiast jednego efektu dla tej zmiennej zawsze będziesz oceniać efekty k-1 (gdzie k jest liczbą poziomów) , tym samym jeszcze bardziej eksplodując liczbę parametrów, które model ma oszacować.

Mike Lawrence
źródło
1
@Mike Lawrence Dzięki za odpowiedź! jak w takim razie szacowany jest model 3-poziomowy? gdzie jeden czynnik grupujący jest zagnieżdżony w innym?
DBR, nie sądzę, żebyś wiedział, jakie są poziomy. Pytasz o to od zawsze. Stwórz pytanie, które faktycznie opisuje projekt eksperymentu i demonstruje twoją interpretację „poziomu”.
John,
3
Myślę, że DBR odnosi się do poziomów w hierarchii. To, co opisałem, to 2-poziomowy model hierarchiczny z obserwacjami zagnieżdżonymi w przedmiotach, a DBR pyta o 3-poziomowe hierarchie, których przykładem mogą być elementy testowe w obrębie uczniów w szkołach, w których chcesz modelować zarówno uczniów, jak i szkoły losowo efekty, z uczniami zagnieżdżonymi w szkołach. W takich przypadkach zakładam, że odchylenia na poziomie szkoły są najpierw obliczane, a następnie odchylenia od uczniów.
Mike Lawrence
2
Najlepsza odpowiedź, jaką widziałem, aby uzyskać konfigurację modeli. Pomógł mi zapewnić łatwe ramy dla mojego szefa, aby zrozumieć, co robię w R z lmer.
bfoste01
Yjajot=γ00+γ10Xjajot+γ01Zjot+γ11XjajotZjot+u1jotXjajot+u0jot+mijajot
jajajotjotlmerY~X+Z+(1|group)+(0+X|Z)group
50

Ogólna sztuczka polega na tym, że, jak wspomniano w innej odpowiedzi , formuła jest zgodna z formą dependent ~ independent | grouping. Zasadniczo groupingjest to czynnik losowy, można uwzględnić czynniki stałe bez grupowania i można mieć dodatkowe czynniki losowe bez żadnego czynnika stałego (model tylko przechwytujący). +Pomiędzy czynnikami oznacza brak oddziaływania, A *oznacza interakcję.

W przypadku czynników losowych masz trzy podstawowe warianty:

  1. Przechwytuje tylko losowo: (1 | random.factor)
  2. Stoki tylko losowo: (0 + fixed.factor | random.factor)
  3. Przechwyty i nachylenia według współczynnika losowego: (1 + fixed.factor | random.factor)

Należy zauważyć, że wariant 3 ma nachylenie i przecięcie obliczone w tej samej grupie, tj. W tym samym czasie. Jeśli chcemy, aby nachylenie i przecięcie były obliczane niezależnie, tj. Bez jakiejkolwiek zakładanej korelacji między nimi, potrzebujemy czwartego wariantu:

  • Intercept i nachylenie oddzielnie przez czynnik losowy: (1 | random.factor) + (0 + fixed.factor | random.factor). Alternatywnym sposobem napisania tego jest użycie notacji z podwójnym słupkiem fixed.factor + (fixed.factor || random.factor).

W innej odpowiedzi na to pytanie jest także miłe podsumowanie, na które powinieneś spojrzeć.

Jeśli masz ochotę trochę zagłębić się w matematykę, Barr i in. (2013) lmercałkiem ładnie podsumowują składnię w Tabeli 1, dostosowanej tutaj, aby spełnić ograniczenia bezobsługowej tabldown. Ten artykuł dotyczył danych psycholingwistycznych, więc dwa losowe efekty to Subjecti Item.

Modele i równoważna lme4składnia formuły:

    • Ysja=β0+β1Xja+misja
    • Nie dotyczy (nie model z efektami mieszanymi)
    • Ysja=β0+S.0s+β1Xja+misja
    • Y ∼ X+(1∣Subject)
    • Ysja=β0+S.0s+(β1+S.1s)Xja+misja
    • Y ∼ X+(1 + X∣Subject)
    • Ysja=β0+S.0s+ja0ja+(β1+S.1s)Xja+misja
    • Y ∼ X+(1 + X∣Subject)+(1∣Item)
    • Ysja=β0+S.0s+ja0ja+β1Xja+misja
    • Y ∼ X+(1∣Subject)+(1∣Item)
    • S.0sS.1s
    • Y ∼ X+(1∣Subject)+(0 + X∣ Subject)+(1∣Item)
    • Ysja=β0+ja0ja+(β1+S.1s)Xja+misja
    • Y ∼ X+(0 + X∣Subject)+(1∣Item)

Bibliografia:

Barr, Dale J, R. Levy, C. Scheepers und HJ Tily (2013). Struktura efektów losowych do testowania hipotez potwierdzających: zachowaj maksymalną wartość . Journal of Memory and Language, 68: 255–278.

Livius
źródło
4
Miły. Mogłoby być lepiej z informacją o zagnieżdżonych czynnikach „/” i notacji z podwójnym słupkiem ”||”
skan
1
Co z symbolem:?
eastafri
1
@eastafri Oznacza to, że to samo, co robi wszędzie w R (formuły) - interakcja między dwiema zmiennymi.
Livius
S.0sS.1s0S.0sS.1s
4

|Symbol oznacza czynnik grupujący w metodach mieszanych.

Zgodnie z Pinheiro i Bates:

... Formuła określa również odpowiedź i, jeśli jest dostępna, podstawową zmienną towarzyszącą . Jest podany jako

response ~ primary | grouping

gdzie responsejest wyrażeniem dla odpowiedzi, primaryjest wyrażeniem dla głównej zmiennej towarzyszącej i groupingjest wyrażeniem dla czynnika grupującego.

W zależności od metody, której używasz do przeprowadzania analizy metod mieszanych R, konieczne może być utworzenie groupedDataobiektu, aby móc korzystać z grupowania w analizie (szczegóły w nlmepakiecie, lme4wydaje się , że nie jest to potrzebne). Nie mogę mówić o sposobie, w jaki określiłeś lmerinstrukcje modelu, ponieważ nie znam twoich danych. Jednak posiadanie wielokrotności (1|foo)w linii modelu jest niezwykłe z tego, co widziałem. Co próbujesz wymodelować?

Michelle
źródło