Obecnie próbuję zastosować model liniowy ( family = gaussian
) do wskaźnika różnorodności biologicznej, który nie może przyjmować wartości niższych niż zero, jest zawyżony i ciągły. Wartości mieszczą się w zakresie od 0 do nieco ponad 0,25. W rezultacie w resztkach modelu istnieje oczywisty wzorzec, którego nie udało mi się pozbyć:
Czy ktoś ma jakieś pomysły, jak to rozwiązać?
Odpowiedzi:
Istnieje wiele rozwiązań w przypadku zerowych (pół-) ciągłych rozkładów:
Lub, jeśli twoja struktura danych jest wystarczająco prosta, możesz po prostu użyć modeli liniowych i użyć testów permutacyjnych lub innego solidnego podejścia, aby upewnić się, że twoje wnioskowanie nie zostanie zakłócone przez interesujący rozkład danych.
W większości przypadków dostępne są pakiety / rozwiązania R.
Istnieją inne pytania na temat SE dotyczące zera (pół) ciągłych danych (np. Tutaj , tutaj i tutaj ), ale nie wydają się one zawierać jednoznacznej ogólnej odpowiedzi ...
Zobacz także Min & Agresti, 2002, Modelowanie nieujemnych danych przy zbijaniu zera: ankieta dla przeglądu.
źródło