Dopasowanie dwumianowego GLMM (glmer) do zmiennej odpowiedzi, która jest proporcją lub ułamkiem

11

Mam nadzieję, że ktoś może pomóc w tym, co uważam za stosunkowo proste pytanie, i myślę, że znam odpowiedź, ale bez potwierdzenia stała się ona czymś, czego po prostu nie mogę być pewien.

Mam dane zliczania jako zmienną odpowiedzi i chcę zmierzyć, jak ta zmienna zmienia się wraz z proporcjonalną obecnością czegoś.

Bardziej szczegółowo, zmienną odpowiedzi są zliczenia obecności gatunku owada w wielu miejscach, więc na przykład z tego miejsca pobiera się próbki 10 razy, a gatunek ten może wystąpić 4 razy.

Chcę sprawdzić, czy koreluje to z proporcjonalną obecnością grupy gatunków roślin w ogólnej społeczności roślin w tych miejscach.

Oznacza to, że moje dane wyglądają następująco (to tylko przykład)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

Dane obejmują również losowy wpływ na lokalizację.

Myślałem o dwóch metodach, jedną byłby model liniowy ( lmer) z owadami zamienionymi na proporcje np

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

Drugi to dwumianowy GLMM ( glmer) np

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

Uważam, że dwumianowy błysk jest poprawną metodą, jednak dają one całkiem inne wyniki. Nie mogę znaleźć ostatecznej odpowiedzi w sieci, nie czując się trochę niepewnie, i chcę się upewnić, że się nie mylę.

Każda pomoc lub wgląd w alternatywne metody byłyby bardzo mile widziane.

ALs
źródło

Odpowiedzi:

19

Dwumianowy GLMM jest prawdopodobnie właściwą odpowiedzią.

  • Zwłaszcza przy małej do umiarkowanej liczbie próbek (9 i 10 w twoim przykładzie) rozkład zmiennej odpowiedzi będzie prawdopodobnie heteroscedastyczny (wariancja nie będzie stała, a w szczególności będzie zależała od średniej w systematyczny sposób) i daleko od Normalności, w sposób, który trudno będzie przekształcić - szczególnie jeśli proporcje są bliskie 0 lub 1 dla niektórych wartości zmiennej predykcyjnej. To sprawia, że ​​GLMM jest dobrym pomysłem.
  • Powinieneś być ostrożny, aby sprawdzić / konto dla nadmiernej dyspersji. Jeśli masz pojedynczą obserwację (tj. Pojedynczą dwumianową próbkę / wiersz w ramce danych) na lokalizację, Twój (1|Site)losowy efekt automatycznie sobie z tym poradzi (chociaż przestroga znajduje się w Harrison 2015)
  • jeśli poprzednie założenie jest słuszne (masz tylko jedną próbkę dwumianową na lokalizację), możesz również dopasować to jako zwykły model dwumianowy ( glm(...,family=binomial)- w takim przypadku możesz również zastosować model quasi-dwumianowy ( family=quasibinomial) jako prostszy, alternatywny sposób w celu uwzględnienia nadmiernej dyspersji
  • jeśli chcesz, możesz również dopasować swój GLMM do proporcji jako odpowiedzi, jeśli ustawisz weightsargument na równy liczbie próbek:

     glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+
           (1|Location),
           weights=NumberofInsectSamples,
           data=Data,family="binomial")
    

    (powinno to dać identyczne wyniki do glmer()dopasowania, jakie masz w swoim pytaniu).

Harrison, Xavier A. „ Porównanie losowego efektu obserwacyjnego i modeli beta-dwumianowych do modelowania nadmiernej dyspersji danych dwumianowych w ekologii i ewolucji ”. PeerJ 3 (21 lipca 2015 r.): E1114. doi: 10.7717 / peerj.1114.

Ben Bolker
źródło
Cześć Ben, wielkie dzięki za jasną i wyczerpującą odpowiedź!
ALs