Czy testy nadmiernej dyspersji w GLM są * przydatne *?

15

Zjawisko „nadmiernej dyspersji” w GLM powstaje za każdym razem, gdy używamy modelu, który ogranicza wariancję zmiennej odpowiedzi, a dane wykazują większą wariancję, niż pozwala na to ograniczenie modelu. Zdarza się to często podczas modelowania danych zliczeniowych przy użyciu Poissona GLM i można je zdiagnozować za pomocą dobrze znanych testów. Jeśli testy wykazują, że istnieją statystycznie istotne dowody nadmiernej dyspersji, zwykle uogólniamy model, stosując szerszą rodzinę rozkładów, która uwalnia parametr wariancji z ograniczenia występującego w oryginalnym modelu. W przypadku Poissona GLM powszechne jest uogólnienie na ujemny dwumianowy lub quasi-Poissona GLM.

Ta sytuacja jest w ciąży z oczywistym sprzeciwem. Po co w ogóle zaczynać od Poissona GLM? Można zacząć bezpośrednio od szerszych form dystrybucyjnych, które mają (względnie) swobodny parametr wariancji i pozwalają dopasować parametr wariancji do danych, całkowicie ignorując testy nadmiernej dyspersji. W innych sytuacjach, gdy przeprowadzamy analizę danych, prawie zawsze używamy formularzy dystrybucyjnych, które zapewniają swobodę przynajmniej przez pierwsze dwa momenty, więc po co robić tutaj wyjątek?

Moje pytanie: Czy jest jakiś dobry powód, aby zacząć od rozkładu, który naprawia wariancję (np. Rozkład Poissona), a następnie wykonać test nadmiernej dyspersji? Jak ta procedura różni się od całkowitego pominięcia tego ćwiczenia i przejścia bezpośrednio do bardziej ogólnych modeli (np. Dwumianowy ujemny, quasi-Poissona itp.)? Innymi słowy, dlaczego nie zawsze używać rozkładu z parametrem swobodnej wariancji?

Przywróć Monikę
źródło
1
zgaduję, że jeśli podstawą naprawdę jest poissona, to twój wynik glm nie wykaże tych dobrze znanych dobrych właściwości, takich jak szacunki, również skutecznych w tym sensie, że wariancja oszacowań jest większa niż powinna, jeśli poprawna model został użyty. Szacunki prawdopodobnie nie są nawet obiektywne ani MLE. Ale to tylko moja intuicja i mogę się mylić. Byłbym ciekawy, jaka jest dobra odpowiedź.
mlofton
3
Z mojego doświadczenia wynika, że ​​testowanie nadmiernej dyspersji ma (paradoksalnie) zastosowanie głównie wtedy, gdy wiesz (z wiedzy o procesie generowania danych), że nadmierna dyspersja nie może być obecna. W tym kontekście testowanie nadmiernej dyspersji informuje, czy model liniowy odbiera cały sygnał z danych. Jeśli tak nie jest, należy rozważyć dodanie większej liczby zmiennych towarzyszących do modelu. Jeśli tak, to więcej zmiennych towarzyszących nie może pomóc.
Gordon Smyth
@GordonSmyth: Myślę, że to dobra odpowiedź. Jeśli nie chcesz przekształcić tego w własną odpowiedź, złożę to w moje.
Cliff AB
1
@GordonSmyth, który ma jedną rzecz, która zawsze przeszkadzała mi w analizie dewiacji jako sprawdzianu dopasowania: brakujące zmienne towarzyszące są mylone z nadmierną dyspersją. Sugeruje to pewne problemy dotyczące tego, jak często uczy się tego materiału. Uczę klasę w kategoriach, a podręczniki nie podkreślają tego bardzo mocno.
facet
1
@guy Tak, zgadza się, a ludzie zwykle zakładają, że resztkowe odchylenie jest zawsze rozkładem chisquare, co często nie jest. Staraliśmy się poprawić te punkty w naszym najnowszym podręczniku doi.org/10.1007/978-1-4419-0118-7, ale trudno jest objąć wszystko w granicach przestrzeni.
Gordon Smyth

Odpowiedzi:

14

Zasadniczo zgadzam się, że w 99% przypadków lepiej jest po prostu użyć bardziej elastycznego modelu. Powiedziawszy to, oto dwa i pół argumentu za tym, dlaczego nie możesz.

(1) Mniej elastyczny oznacza bardziej wydajne szacunki. Biorąc pod uwagę, że parametry wariancji wydają się być mniej stabilne niż parametry średnie, twoje założenie o stałej relacji średnia-wariancja może bardziej ustabilizować błędy standardowe.

(2) Sprawdzanie modelu. Współpracowałem z fizykami, którzy uważają, że różne pomiary można opisać rozkładami Poissona ze względu na fizykę teoretyczną. Jeśli odrzucimy hipotezę, która oznacza = wariancja, mamy dowody przeciwko hipotezie rozkładu Poissona. Jak wskazano w komentarzu @GordonSmyth, jeśli masz powody, by sądzić, że dany pomiar powinien być zgodny z rozkładem Poissona, jeśli masz dowody na nadmierne rozproszenie, masz dowody, że brakuje ważnych czynników.

V.zar[y]=αmi[y]α1

Cliff AB
źródło
W wersji 2.5: są oczywiście ujemne dwumianowe i GLMM z losowymi efektami, które nie mają tego ograniczenia.
Björn
@ Björn: dlatego jest to tylko połowa argumentów; dotyczy tylko metod quasi-wiarygodności. O ile mi wiadomo, nie istnieją żadne metody prawdopodobieństwo oparte na podstawie dyspersji, choć może to być analizowane z modelem quasi-prawdopodobieństwa ryzyka.
Cliff AB
1
Również w wersji 2.5: rozumiem, że nie ma rodziny wykładniczej dyspersji, która spełniałaby pożądaną relację. Oznacza to, że wynik quasi nie odpowiada prawdziwemu wynikowi. Nie oznacza to, że nie ma rodzin rozkładów danych zliczających, które spełniają pożądaną relację; takich rodzin powinno być wiele.
facet
2
@CliffAB dla danych z rozproszonymi liczbami istnieje model Conwaya-Maxwella-Poissona: en.m.wikipedia.org/wiki/..., który jest zaimplementowany w kilku pakietach R.
Dimitris Rizopoulos
Jeśli model będzie używany do przewidywania, kolejnym powodem preferowania prostszego modelu jest to, że jeśli wszystko inne jest równe, prostszy model będzie miał lepsze właściwości predykcyjne. Mam na myśli AIC, BIC, a także ogólnie PAC.
meh
11

Chociaż jest to moje własne pytanie, zamierzam również opublikować własne dwa centy jako odpowiedź, aby zwiększyć liczbę perspektyw na to pytanie. Problem polega na tym, czy rozsądnie jest początkowo dopasować rozkład danych do jednego parametru. Gdy używasz rozkładu jednoparametrowego (takiego jak Poisson GLM lub dwumianowy GLM ze stałym parametrem próbnym), wariancja nie jest parametrem wolnym, a zamiast tego jest ograniczona do funkcji średniej. Oznacza to, że odradzanie dopasowania jednoparametrowego rozkładu do danych jest niewskazane w każdej sytuacji, w której nie masz absolutnej pewności, że wariancja jest zgodna ze strukturą tego rozkładu.


Dopasowywanie rozkładów jednoparametrowych do danych jest prawie zawsze złym pomysłem: dane są często bardziej nieporządne niż sugerują to proponowane modele, a nawet jeśli istnieją teoretyczne powody, by sądzić, że dany konkretny model jednoparametrowy może uzyskać, często zdarza się, że dane faktycznie pochodzą z mieszanki tego rozkładu jednego parametru z zakresem wartości parametrów. Jest to często równoważne z szerszym modelem, takim jak rozkład dwuparametrowy, który pozwala na większą swobodę dla wariancji. Jak omówiono poniżej, dotyczy to Poissona GLM w przypadku danych zliczania.

Jak stwierdzono w pytaniu, w większości zastosowań statystyki powszechną praktyką jest stosowanie formularzy dystrybucyjnych, które pozwalają przynajmniej na swobodne zmienianie dwóch pierwszych chwil. Zapewnia to, że dopasowany model pozwala danym dyktować wnioskowaną średnią i wariancję, zamiast sztucznie ograniczać je przez model. Posiadanie tego drugiego parametru traci tylko jeden stopień swobody w modelu, co stanowi niewielką stratę w porównaniu z korzyścią wynikającą z umożliwienia oszacowania wariancji na podstawie danych. Można oczywiście rozszerzyć to rozumowanie i dodać trzeci parametr, aby umożliwić dopasowanie skośności, czwarty, aby umożliwić dopasowanie kurtozy itp.


Z kilkoma bardzo małymi wyjątkami, Poisson GLM jest złym modelem: z mojego doświadczenia, dopasowanie rozkładu Poissona do zliczania danych jest prawie zawsze złym pomysłem. W przypadku danych zliczania niezwykle często wariancja danych jest „nadmiernie rozproszona” w stosunku do rozkładu Poissona. Nawet w sytuacjach, w których teoria wskazuje na rozkład Poissona, często najlepszym modelem jest mieszanina rozkładów Poissona, w których wariancja staje się parametrem swobodnym. Rzeczywiście, w przypadku danych zliczeniowych rozkład ujemno-dwumianowy jest mieszaniną Poissona z rozkładem gamma dla parametru szybkości, więc nawet jeśli istnieją teoretyczne powody, by sądzić, że zliczenia przybywają zgodnie z procesem rozkładu Poissona, często zdarza się, że występuje „nadmierna dyspersja”, a rozkład dwumianowy ujemny pasuje znacznie lepiej.

Praktyka dopasowywania Poissona GLM do zliczania danych, a następnie przeprowadzanie testu statystycznego w celu sprawdzenia „nadmiernej dyspersji” jest anachronizmem i rzadko jest dobrą praktyką. W innych formach analizy statystycznej nie zaczynamy od rozkładu dwuparametrowego, arbitralnie wybieramy ograniczenie wariancji, a następnie testujemy to ograniczenie, aby spróbować wyeliminować parametr z rozkładu. Robiąc to w ten sposób, faktycznie tworzymy niezręczną procedurę hybrydową, składającą się z początkowego testu hipotezy stosowanego do wyboru modelu, a następnie modelu rzeczywistego (Poissona lub szerszego rozkładu). W wielu kontekstach wykazano, że tego rodzaju praktyka tworzenia modeli hybrydowych na podstawie wstępnego testu wyboru modelu prowadzi do złych modeli ogólnych.

Analogiczną sytuacją, w której zastosowano podobną metodę hybrydową, są testy T średniej różnicy. Kiedyś kursy statystyczne zalecały najpierw użycie testu Levene'a (lub nawet o wiele bardziej „bardziej praktycznych” reguł), aby sprawdzić równość wariancji między dwiema populacjami, a następnie, jeśli dane „przeszły” ten test, użyj testu T-Studenta, który zakłada równą wariancję, a jeśli dane „nie przejdą” testu, zamiast tego skorzystaj z testu T-Welcha. To jest naprawdę zła procedura (patrz np. Tutaj i tutaj)). O wiele lepiej jest po prostu użyć drugiego testu, który nie zakłada założenia wariancji, zamiast tworzyć niezręczny test złożony, który blokuje wstępny test hipotezy, a następnie wykorzystuje go do wyboru modelu.

W przypadku danych zliczania generalnie dobre wyniki początkowe uzyskuje się poprzez dopasowanie modelu dwuparametrowego, takiego jak model dwumianowy ujemny lub quasi-Poissona. (Należy zauważyć, że ten ostatni nie jest rzeczywistym rozkładem, ale nadal daje rozsądny model dwuparametrowy.) Jeśli w ogóle konieczne jest jakiekolwiek dalsze uogólnienie, zwykle jest to dodanie inflacji zerowej, w której występuje nadmierna liczba zer w danych. Ograniczenie do Poissona GLM jest sztucznym i bezsensownym wyborem modelu, a nie jest to znacznie lepsze dzięki testom na nadmierną dyspersję.


Okej, teraz są drobne wyjątki: Jedynymi prawdziwymi wyjątkami od powyższych są dwie sytuacje:

(1) Masz wyjątkowo silne teoretyczne powody, by sądzić, że założenia dla rozkładu jednego parametru są spełnione, a częścią analizy jest przetestowanie tego modelu teoretycznego na danych; lub

(2) Z jakiegoś innego (dziwnego) powodu celem twojej analizy jest przeprowadzenie testu hipotezy na temat wariancji danych, a więc naprawdę chcesz ograniczyć tę wariancję do tego hipotetycznego ograniczenia, a następnie przetestować tę hipotezę.

Te sytuacje są bardzo rzadkie. Zwykle powstają one tylko wtedy, gdy istnieje silna wiedza teoretyczna a priori na temat mechanizmu generowania danych, a celem analizy jest sprawdzenie tej leżącej u podstaw teorii. Może tak być w przypadku bardzo ograniczonego zakresu zastosowań, w których dane są generowane w ściśle kontrolowanych warunkach (np. W fizyce).

Przywróć Monikę
źródło