Poissona czy quasi-poissona w regresji z danymi zliczania i nadmierną dyspersją?

16

Mam dane zliczania (analiza popytu / oferty z liczbą klientów, w zależności od - być może - wielu czynników). Próbowałem regresji liniowej z normalnymi błędami, ale mój wykres QQ nie jest naprawdę dobry. Próbowałem przekształcić log odpowiedzi: po raz kolejny zły wykres QQ.

Więc teraz próbuję regresji za pomocą błędów Poissona. Dzięki modelowi ze wszystkimi znaczącymi zmiennymi otrzymuję:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

Resztkowe odchylenie jest większe niż resztkowe stopnie swobody: mam nadmierną dyspersję.

Skąd mam wiedzieć, czy muszę użyć quasipoisson? Jaki jest cel quasipoisson w tym przypadku? Czytam tę radę w „The R Book” Crawleya, ale nie widzę sensu ani znacznej poprawy w moim przypadku.

Antonin
źródło

Odpowiedzi:

18

Próbując ustalić, jaki rodzaj równania glm chcesz oszacować, powinieneś pomyśleć o prawdopodobnych zależnościach między oczekiwaną wartością zmiennej docelowej, biorąc pod uwagę zmienne po prawej stronie (rhs), a wariancją zmiennej docelowej, biorąc pod uwagę zmienne rhs. Pomogą w tym wykresy wartości resztkowych w stosunku do dopasowanych wartości z modelu Normalnego. W przypadku regresji Poissona zakłada się, że wariancja jest równa wartości oczekiwanej; raczej restrykcyjne, myślę, że się zgodzisz. Przy „standardowej” regresji liniowej zakłada się, że wariancja jest stała niezależnie od oczekiwanej wartości. Dla regresji quasi-poissona zakłada się, że wariancja jest liniową funkcją średniej; dla ujemnej regresji dwumianowej funkcja kwadratowa.

Jednak nie jesteś ograniczony do tych relacji. Specyfikacja „rodziny” (innej niż „quasi”) określa relację średniej wariancji. Nie mam Księgi R, ale wyobrażam sobie, że ma tabelę, która pokazuje funkcje rodzinne i odpowiadające im relacje średnia-wariancja. W przypadku rodziny „quasi” można określić dowolną z kilku zależności między wariancją średnią, a nawet napisać własną; zobacz dokumentację R . Może być tak, że można znaleźć znacznie lepsze dopasowanie, określając wartość domyślną dla funkcji średniej wariancji w modelu „quasi”.

Powinieneś także zwrócić uwagę na zakres zmiennej docelowej; w twoim przypadku jest to nieujemna liczba danych. Jeśli masz znaczną część niskich wartości - 0, 1, 2 - ciągłe rozkłady prawdopodobnie nie będą dobrze pasować, ale jeśli tego nie zrobisz, nie będzie wiele wartości w zastosowaniu rozkładu dyskretnego. Rzadko bierze się pod uwagę dystrybucje Poissona i Normal jako konkurentów.

łucznik
źródło
Tak, masz rację. Tutaj mam dane zliczające, ale o dużych wartościach. Powinienem stosować ciągłą dystrybucję.
Antonin,
8

Masz rację, te dane mogą być prawdopodobnie rozproszone. Quasipoisson jest lekarstwem: szacuje również parametr skali (który jest stały dla modeli Poissona, ponieważ wariancja jest również średnią) i zapewnia lepsze dopasowanie. Jednak nie jest już maksymalne prawdopodobieństwo tego, co robisz, a niektóre testy modeli i indeksy nie mogą być używane. Dobrą dyskusję można znaleźć w Venables i Ripley, Modern Applied Statistics with S (Rozdział 7.5) .

Alternatywą jest zastosowanie ujemnego modelu dwumianowego, np. glm.nb()Funkcji w pakiecie MASS.

Momo
źródło
1
Ale czy w tym przypadku jestem „zmuszony” do użycia quasipoissona? Pytam, ponieważ mój nie quasipoisson model jest lepszy (tylko podstawowy poisson) w tym sensie, że więcej zmiennych jest znaczących.
Antonin
2
Czy to nie ma sensu? Gdybym użył modelu regresji, w którym założyłem, że sigma wynosi 0,00001 zamiast szacunku z danych (powiedzmy, powiedzmy 2.3), wówczas rzeczy będą bardziej znaczące.
Dason,
1
Antonin: Powiedziałbym, że tylko dlatego, że więcej zmiennych jest znaczących, nie czyni to „lepszymi”. Mogą one, jak zauważył Dason, z łatwością być fałszywie pozytywne, jeśli nie docenisz wariancji błędu. Zdecydowanie użyłbym w tym przypadku quasi-metody lub dwumianu ujemnego, ale jeśli nie przejrzę twojego artykułu, nie będziesz zmuszony nic robić;)
Momo
Wielkie dzięki za odpowiedzi! Czy znasz jakiś sposób porównywania modeli quasi-poissona i ujemnych modeli dwumianowych? W większości książek przedstawiają modele, ale nie wyjaśniają, jak wybierać między nimi.
Antonin,
1
Z danych wyjściowych wydaje się, że dopasowujesz parametry 53-17 = 16 do 53 + 1 = 54 punktów danych; czy to jest poprawne? Jeśli tak, jakakolwiek metoda, która opiera się na asymptotycznych przybliżeniach, w tym na użyciu glm()i glm.nb()może dać źle skalibrowane wnioskowanie; uzasadnione byłoby oczekiwanie, że precyzja zostanie zawyżona. Przydałoby się wiedzieć więcej o tym, dlaczego chcesz wykonać tę regresję; zamiast tego można zastosować metody, które działają lepiej w małych próbkach.
gość