Model z efektem mieszanym i zmienną próbkowania

11

Próbuję określić wzór dla liniowego modelu mieszanego efektu (z lme4) dla mojego projektu eksperymentalnego, ale nie jestem pewien, czy robię to dobrze.

Projekt: w zasadzie mierzę parametr odpowiedzi na roślinach. Mam 4 poziomy leczenia i 2 poziomy nawadniania. Rośliny są pogrupowane na 16 poletek, w ramach każdego poletka próbuję 4 podploty. Na każdym poletku wykonuję od 15 do 30 obserwacji (w zależności od liczby znalezionych roślin). Oznacza to, że w sumie jest 1500 wierszy.

wprowadź opis zdjęcia tutaj

Początkowo poziom podplotu był tutaj tylko do celów próbkowania, ale pomyślałem, że chciałbym wziąć to pod uwagę w modelu (jako zmienna 64-poziomowa), ponieważ widziałem, że istnieje duża zmienność między poszczególnymi podplotami , nawet na tym samym poletku (większa niż zmienność między całymi poletkami).

Moim pierwszym pomysłem było napisanie:

library(lme4)
fit <- lmer(y ~ treatment*irrigation + (1|subplot/plot), data=mydata)

lub

fit <- lmer(y ~ treatment*irrigation + (1|subplot) + (1|plot), data=mydata)

Czy to jest poprawne? Nie jestem pewien, czy muszę zachować oba poziomy wykresu / wykresu cząstkowego w mojej formule. Żaden ustalony efekt nie jest znaczący, ale efekty losowe są bardzo znaczące.

agenis
źródło

Odpowiedzi:

9

Twój model powinien być zapisany jako

fit <- lmer(y ~ treatment*irrigation + (1|plot/subplot), data=mydata)

ponieważ podploty są zagnieżdżone w obrębie witryny. chociaż (1|plot)+ (1|subplot)działałoby, gdyby wykresy cząstkowe były jednoznacznie oznaczone (tj. 1A, 1B, 1C, ..., 2A, 2B, 2C zamiast A, B, C ..., A, B, C). Mój rozdział w książce Fox i in. Statystyka ekologiczna opisuje przykład zagnieżdżenia:

Z drugiej strony, w przykładzie kleszcza, każde pisklę występuje tylko w jednym wylęgu, a każde potomstwo występuje tylko w jednym miejscu: specyfikacja modelu (1 | SITE/BROOD/INDEX)brzmi „pisklę (INDEKS) zagnieżdżone w wylęgu zagnieżdżonym w obrębie stanowiska” lub równoważnie (1 | SITE) + (1 | SITE:BROOD) + (1 | SITE:BROOD:INDEX). Jeśli wylęgi i pisklęta są jednoznacznie oznakowane, aby oprogramowanie mogło wykryć zagnieżdżenie, (1 | SITE) + (1 | BROOD) + (1 | INDEX)również będzie działać (nie używaj (1 | SITE) + (1 | SITE/BROOD) + (1 | SITE/BROOD/INDEX); doprowadzi to do zbędnych terminów w modelu).

Inne przemyślenia:

  • Więcej informacji o zagnieżdżaniu i specyfikacjach modeli na stronie http://glmm.wikidot.com/faq
  • czy twoje zabiegi nawadniające są naprawdę zorganizowane, jak pokazano na powyższym schemacie, tzn. nie są ze sobą powiązane? Czy to tylko dla wygody prezentacji graficznej? Jeśli to pierwsze, masz potencjalnie problematyczny projekt eksperymentalny ...
  • Ponieważ podploty są zagnieżdżone w obrębie miejsc, byłoby całkiem dobrze wnioskowanie (zgodnie z Murtaugh 2007 Ecology „Prostota i złożoność w analizie danych ekologicznych” ), aby wziąć środki na wykresie i przeanalizować dane na poziomie powierzchni.
  • Za to, co jest warte, myślę, że możesz pójść jeszcze dalej i zagregować do poziomu fabuły; możesz całkowicie pominąć modele mieszane i po prostu zrobićlm(y~treatment*irrigation, data=my_aggregated_data)
Ben Bolker
źródło
dziękuję za twoją pomoc (mam 12h, aby czekać na odblokowanie +50 :( rzeczywiście miałem duże wątpliwości co do nazewnictwa moich podplotów (4 lub 64 unikalne etykiety). Liczba jest poprawna: nawadnianie nie jest „losowe”, to jest niefortunne zgadzam się (powiedzieli mi: „zbyt ekspansywny, aby zrobić to inaczej”!). Dzięki za linki. Jeszcze jedno pytanie: otrzymuję wykres resztek, który nie wygląda dobrze: w kształcie stożka (jak to: „<”), błąd wydaje się proporcjonalny do wartości Y. czy istnieje sposób, aby to naprawić w tego typu modelu?
agenis
1
Najbardziej oczywistym rozwiązaniem (i często rozwiązującym inne problemy) jest transformacja odpowiedzi, najczęściej transformacja logów.
Ben Bolker