Mam dane dotyczące gęstości ryb, które próbuję porównać między kilkoma różnymi technikami zbierania, dane mają wiele zer, a histogram wygląda na vaugley odpowiedni dla rozkładu Poissona, z tym wyjątkiem, że jako gęstości nie są to dane całkowite. Jestem stosunkowo nowy w GLM i przez ostatnie kilka dni szukałem w Internecie, jak powiedzieć, z której dystrybucji skorzystać, ale całkowicie nie udało mi się znaleźć żadnych zasobów, które mogłyby pomóc w podjęciu tej decyzji. Przykładowy histogram danych wygląda następująco:
Nie mam pojęcia, jak podjąć decyzję o wyborze odpowiedniej rodziny do GLM. Jeśli ktoś ma jakąś radę lub może dać mi zasób, powinienem to sprawdzić, byłoby fantastycznie.
Odpowiedzi:
Rodziny GLM obejmują funkcję link, a także relację średniej wariancji. W przypadku GLM Poissona funkcja link jest dziennikiem, a relacja średniej wariancji to tożsamość. Pomimo ostrzeżeń, które daje większość programów statystycznych, całkowicie uzasadnione jest modelowanie relacji w ciągłych danych, w których związek między dwiema zmiennymi jest liniowy w skali logarytmicznej, a wariancja rośnie zgodnie ze średnią.
Zasadniczo jest to uzasadnienie wyboru funkcji łącza i wariancji w GLM. Oczywiście za tym procesem kryje się kilka założeń. Możesz stworzyć bardziej niezawodny model, używając quasilikelihood (patrz
?quasipoisson
) lub solidnych standardowych błędów (patrz pakietsandwich
lubgee
).Prawidłowo zauważyłeś, że wiele gęstości ma 0 w danych. W modelach prawdopodobieństwa Poissona właściwe jest od czasu do czasu próbkowanie zer w danych, więc niekoniecznie jest tak, że te obserwacje prowadzą do błędu w twoich szacunkach wskaźników.
Aby sprawdzić założenia GLM, zwykle pomocne jest przyjrzenie się pozostałościom Pearsona. Uwzględniają one średnią zależność wariancji i pokazują statystycznemu, czy określone obserwacje, takie jak te zerowe, istotnie wpływają na oszacowanie i wyniki.
źródło
Uogólniony model liniowy jest zdefiniowany w kategoriach predyktora liniowego
który jest przekazywany przez funkcję link :g
Modeluje zależność między zmienną zależną i zmiennymi niezależnymi X = X 1 , X 2 , … , X k . Dokładniej, to modele warunkowe oczekiwanie od Y danego X ,Y X=X1,X2,…,Xk Y X
więc model można zdefiniować w kategoriach probabilistycznych jako
Jeśli twój wynik jest ciągły i nieograniczony, wówczas najbardziej „domyślnym” wyborem jest rozkład Gaussa (inaczej rozkład normalny ), tj. Standardowa regresja liniowa (chyba że użyjesz innej funkcji łącza niż domyślny link tożsamości).
Jeśli masz do czynienia z ciągłym wynikiem nieujemnym , możesz rozważyć rozkład gamma lub odwrotny rozkład gaussa .
Jeśli twój wynik jest dyskretny , a dokładniej, masz do czynienia z licznikami (ile razy coś się dzieje w danym przedziale czasowym), to najczęstszym wyborem rozkładu na początek jest rozkład Poissona . Problem z rozkładem Poissona polega na tym, że jest on raczej nieelastyczny, ponieważ zakłada, że średnia jest równa wariancji, jeśli to założenie nie zostanie spełnione, można rozważyć zastosowanie rodziny quasi-Poissona lub ujemnego rozkładu dwumianowego (patrz także Definicja dyspersji parametr dla rodziny quasipoisson ).
Jeśli twój wynik jest binarny (zera i jedynki), proporcje „sukcesów” i „niepowodzeń” (wartości od 0 do 1) lub ich liczby , możesz użyć rozkładu dwumianowego , tj . Modelu regresji logistycznej . Jeśli istnieje więcej niż dwie kategorie, należy użyć rozkładu wielomianu w regresji wielomianowej .
Z drugiej strony, w praktyce, jeśli jesteś zainteresowany budowaniem modelu predykcyjnego, możesz być zainteresowany przetestowaniem kilku różnych rozkładów, a na koniec dowiedzieć się, że jeden z nich daje bardziej dokładne wyniki niż inne, nawet jeśli nie jest to najbardziej „odpowiednie” pod względem teoretycznym (np. teoretycznie powinieneś użyć Poissona, ale w praktyce standardowa regresja liniowa działa najlepiej dla twoich danych).
źródło
To dość szerokie pytanie, pytasz o sposób modelowania, a poświęcone temu są całe książki. Na przykład, mając do czynienia z danymi zliczeń, weź pod uwagę następujące kwestie:
Oprócz wyboru dystrybucji musisz także wybrać funkcję łącza. Z danymi zliczania można wypróbować rozkład dwumianowy poissona lub ujemnego i funkcję łączenia logów. Podano powód połączenia logu: Dobro dopasowania i który model wybrać regresję liniową lub Poissona Jeśli twoje łatki mają bardzo różne obszary, być może powinieneś uwzględnić logarytm obszaru jako przesunięcie, aby model liczył na jednostkę powierzchni, a nie absolutny liczy się. Aby uzyskać wyjaśnienie przesunięcia w regresji danych zliczania, zobacz Kiedy używać przesunięcia w regresji Poissona?
Ta odpowiedź została pierwotnie wysłana na inne pytanie, które zostało połączone z tym. Chociaż odpowiedź jest ogólna, skomentowała specyfikę zbioru danych i problem, których już nie ma w pytaniu. Oryginalne pytanie można znaleźć pod następującym linkiem: Rodzina w GLM - jak wybrać właściwe?
źródło