Jak modelować nieujemne dane ciągłe z zerowym napompowaniem?

16

Obecnie próbuję zastosować model liniowy ( family = gaussian) do wskaźnika różnorodności biologicznej, który nie może przyjmować wartości niższych niż zero, jest zawyżony i ciągły. Wartości mieszczą się w zakresie od 0 do nieco ponad 0,25. W rezultacie w resztkach modelu istnieje oczywisty wzorzec, którego nie udało mi się pozbyć: wprowadź opis zdjęcia tutaj

Czy ktoś ma jakieś pomysły, jak to rozwiązać?

David
źródło
1
Witamy w CV! Pamiętaj, że Twoja nazwa użytkownika, identyfikator oraz link do strony użytkownika są automatycznie dodawane do każdego posta, więc nie musisz podpisywać swoich postów. W rzeczywistości wolimy, żebyś tego nie robił.
Silverfish,
3
Jeśli jest zawyżony do zera, nie może być ciągły, ponieważ zmienne ciągłe nie mogą mieć żadnych skoków w pliku cdf (a najwyraźniej jeden ma wartość 0). Może być ciągły oprócz zer.
Glen_b
Powiązane: stats.stackexchange.com/questions/105320
mówi Przywróć Monikę

Odpowiedzi:

32

Istnieje wiele rozwiązań w przypadku zerowych (pół-) ciągłych rozkładów:

  • Regresja Tobit : zakłada, że ​​dane pochodzą z jednego leżącego u podstaw rozkładu normalnego, ale wartości ujemne są cenzurowane i ustawiane na zero (np. Pakiet censReg )
  • model przeszkodowy lub „dwustopniowy”: użyj modelu dwumianowego, aby przewidzieć, czy wartości wynoszą 0 czy> 0, a następnie użyj modelu liniowego (lub Gamma, lub obciętego Normalnego lub log-Normalnego) do modelowania zaobserwowanych wartości niezerowych
  • 1<p<2)x>0

Lub, jeśli twoja struktura danych jest wystarczająco prosta, możesz po prostu użyć modeli liniowych i użyć testów permutacyjnych lub innego solidnego podejścia, aby upewnić się, że twoje wnioskowanie nie zostanie zakłócone przez interesujący rozkład danych.

W większości przypadków dostępne są pakiety / rozwiązania R.

Istnieją inne pytania na temat SE dotyczące zera (pół) ciągłych danych (np. Tutaj , tutaj i tutaj ), ale nie wydają się one zawierać jednoznacznej ogólnej odpowiedzi ...

Zobacz także Min & Agresti, 2002, Modelowanie nieujemnych danych przy zbijaniu zera: ankieta dla przeglądu.

Ben Bolker
źródło
@Ben Bolker Czy użyłbyś „modelu liniowego (lub gamma, skróconego normalnego lub log-normalnego) do modelowania„ przewidywanych lub rzeczywistych niezerowych wartości?
rolando2