Jak radzić sobie z nadmierną dyspersją w regresji Poissona: quasi-prawdopodobieństwo, ujemny dwumianowy GLM lub efekt losowy na poziomie podmiotu?

Regresja Poissona to tylko GLM:

Ludzie często mówią o parametrycznym uzasadnieniu zastosowania regresji Poissona. W rzeczywistości regresja Poissona jest tylko GLM. Oznacza to, że regresja Poissona jest uzasadniona dla dowolnego rodzaju danych (liczby, oceny, wyniki egzaminów, zdarzenia binarne itp.), Gdy spełnione są dwa założenia: 1) logarytm wyniku średniego jest liniową kombinacją predyktorów i 2) odchylenie od wyniku jest równa średniej . Te dwa warunki są odpowiednio nazywane modelem średniej i relacją średniej wariancji.

Założenie modelu średniego można nieco rozluźnić, stosując złożony zestaw korekt predyktorów. Jest to miłe, ponieważ funkcja link wpływa na interpretację parametrów; subtelność interpretacji stanowi różnicę między odpowiedzią na pytanie naukowe a całkowitym unikaniem konsumentów analizy statystycznej. W innym poście na temat SE omawiam przydatność transformacji logów do interpretacji.

Okazuje się jednak, że drugie założenie (relacja średnia-wariancja) ma silny wpływ na wnioskowanie. Gdy relacja średniej wariancji nie jest prawdziwa, oszacowania parametrów nie są stronnicze . Jednak wszystkie błędy standardowe, przedziały ufności, wartości p i prognozy są błędnie skalibrowane. Oznacza to, że nie możesz kontrolować błędu typu I i możesz mieć nieoptymalną moc.

Co jeśli wariancja średnia może być rozluźniona, tak że wariancja jest po prostu proporcjonalna do średniej? Robią to ujemna regresja dwumianowa i regresja quasipoissona.

Modele quasipoisson

Modele quasipoisson nie są oparte na prawdopodobieństwie. Maksymalizują „quasilikelihood”, czyli prawdopodobieństwo Poissona aż do proporcjonalnej stałej. Ta proporcjonalna stała się czasem dyspersją. Dyspersję uważa się za uciążliwąparametr. Podczas gdy procedura maksymalizacji przedstawia oszacowanie parametru uciążliwości, oszacowanie to jest jedynie artefaktem danych, a nie jakąkolwiek wartością, która generalizuje się w populacji. Dyspersja służy jedynie „zmniejszeniu” lub „poszerzeniu” SE parametrów regresji w zależności od tego, czy wariancja jest proporcjonalnie mniejsza niż czy większa od średniej. Ponieważ dyspersję traktuje się jako parametr uciążliwy, modele quasipoisson mają wiele solidnych właściwości: dane mogą w rzeczywistości być heteroscedastyczne (niespełniające założenia proporcjonalnej wariancji średniej), a nawet wykazywać małe źródła zależności, a model średni nie musi być dokładnie poprawne, ale 95% CI dla parametrów regresji są asymptotycznie poprawne.Jeśli Twoim celem analizy danych jest zmierzenie powiązania między zestawem parametrów regresji a wynikiem, modele quasipoisson są zazwyczaj dobrym rozwiązaniem. Ograniczeniem tych modeli jest to, że nie dają one przedziałów predykcji, reszty Pearson nie mogą powiedzieć wiele o tym, jak dokładny jest model średni, a kryteria informacyjne, takie jak AIC lub BIC, nie mogą skutecznie porównać tych modeli z innymi typami modeli.

Negatywne modele dwumianowe

Najbardziej przydatne jest zrozumienie ujemnej regresji dwumianowej jako 2-parametrowej regresji Poissona. Średni model jest taki sam, jak w modelach Poissona i Quasipoissona, gdzie log wyniku jest liniową kombinacją predyktorów. Ponadto parametr „skali” modeluje zależność średnia-wariancja, w której wariancja jest jedynie proporcjonalna do średniej jak poprzednio. Jednak w przeciwieństwie do modeli quasipoisson, ten typ modelu jest procedurą opartą na dokładnym prawdopodobieństwie. W tym przypadku dyspersja jest faktycznym parametrem, który ma pewien zakres uogólnienia dla populacji. Wprowadza to kilka zalet w stosunku do quasipoissonu, ale moim zdaniem nakłada więcej (niestabilnych) założeń. W przeciwieństwie do modeli quasipoisson: dane muszą być niezależne, model średni musi być poprawny, a parametr skali musi być homoscedastyczny w całym zakresie dopasowanych wartości, aby uzyskać prawidłowe wnioskowanie. Można je jednak nieco ocenić, sprawdzając resztki Pearsona, a model generuje realne prognozy i przedziały prognozowania i można je porównać z kryteriami informacyjnymi.

Ujemne dwumianowe modele prawdopodobieństwa powstają z mieszaniny Poissona-Gamma. Oznacza to, że nieznana zmienna zmienna losowa Gamma „zasila” parametr parametru Poissona. Ponieważ dopasowanie NB GLM opiera się na prawdopodobieństwie, zwykle pomocne jest sformułowanie wcześniejszych przekonań na temat mechanizmu generowania danych i połączenie ich z uzasadnieniem probabilistycznym dla danego modelu. Na przykład, jeśli testuję liczbę kierowców wycofujących się z 24-godzinnych wyścigów wytrzymałościowych, mogę wziąć pod uwagę, że wszystkie warunki środowiskowe są stresorami, których nie mierzyłem, a zatem przyczyniają się do ryzyka wystąpienia DNF, takich jak wilgoć lub niska temperatura wpływająca na oponę przyczepność, a tym samym ryzyko wypadnięcia i wraku.

Modele danych zależnych: GLMM vs GEE

Uogólnione liniowe modele mieszane (GLMM) dla danych Poissona nie porównują się z powyższymi podejściami. GLMM odpowiadają na inne pytanie i są wykorzystywane w różnych strukturach danych. Tutaj źródła zależności między danymi są mierzone jawnie. GLMM wykorzystują losowe przechwyty i losowe zbocza, aby uwzględnić niejednorodność poszczególnych poziomów. To zmienia to, co szacujemy. Losowe efekty modyfikują średnią i wariancję, która jest modelowana, a nie tylko wariancję, jak omówiono powyżej.

Istnieją dwa możliwe poziomy powiązania, które można zmierzyć w danych zależnych: poziom populacji (marginalny) i poziom indywidualny (warunkowy). GLMM twierdzą, że mierzą powiązania na poziomie indywidualnym (warunkowym): to znaczy, biorąc pod uwagę cały szereg indywidualnych czynników przyczyniających się do wyniku, jaki jest względny efekt kombinacji predyktorów. Na przykład kursy przygotowujące do egzaminów mogą mieć niewielki wpływ na dzieci uczęszczające do przykładowych szkół, podczas gdy dzieci w mieście mogą odnieść ogromne korzyści. Indywidualny poziom efektu jest wówczas znacznie wyższy w tych okolicznościach, ponieważ dzieci znajdujące się w szczególnie trudnej sytuacji znajdują się zbyt daleko poza krzywą pod względem pozytywnych ekspozycji.

Gdybyśmy naiwnie zastosowali quasipoisson lub negatywne modele dwumianowe do danych zależnych, modele NB byłyby błędne, a modele Quasipoisson byłyby nieefektywne. Jednak GEE rozszerza model quasipoissonu, aby jawnie modelować struktury zależności, takie jak GLMM, ale GEE mierzy trend krańcowy (poziom populacji) i uzyskuje prawidłowe wagi, błędy standardowe i wnioskowanie.

Przykład analizy danych:

Ten post jest już za długi :) Jest ładna ilustracja pierwszych dwóch modeli w tym samouczku , wraz z odniesieniami do dalszych lektur, jeśli jesteś zainteresowany. Dane te dotyczą nawyków gniazdowania krabów: samice siedzą w gniazdach, a samce (satelity) przylegają do niej. Badacze chcieli zmierzyć liczbę mężczyzn przywiązanych do kobiety jako funkcję cech kobiety. Mam nadzieję, że podkreśliłem, dlaczego modele mieszane są nieporównywalne: jeśli masz zależne dane, musisz użyć poprawnego modelu dla pytania, na które te zależne dane próbują odpowiedzieć - GLM lub GEE.

Bibliografia:

[1] Agresti, Categorical Data Analysis 2nd Edition

[2] Diggle, Heagerty, Liang, Zeger, Analysis of Longitudinal Data 2nd ed.

AdamO
źródło