Identyczne współczynniki oszacowane w modelu Poissona vs Quasi-Poissona

12

W modelowaniu danych dotyczących liczby roszczeń w środowisku ubezpieczeniowym zacząłem od Poissona, ale zauważyłem nadmierną dyspersję. Quasi-Poisson lepiej modelował większy związek średniej wariancji niż podstawowy Poisson, ale zauważyłem, że współczynniki były identyczne zarówno w modelach Poissona, jak i Quasi-Poissona.

Jeśli to nie jest błąd, dlaczego tak się dzieje? Jakie są zalety korzystania z Quasi-Poissona nad Poissonem?

Ważne uwagi:

  • Straty leżące u podstaw są nadmierne, co (jak sądzę) uniemożliwiło Tweedie działanie - ale to była pierwsza dystrybucja, którą próbowałem. Badałem również modele NB, ZIP, ZINB i Hurdle, ale nadal stwierdziłem, że Quasi-Poisson zapewnia najlepsze dopasowanie.
  • Testowałem na nadmierną dyspersję za pomocą testu dyspersji w pakiecie AER. Mój parametr dyspersji wynosił około 8,4, przy wartości p dla wielkości 10 ^ -16.
  • Używam glm () z rodzina = poisson lub quasipoisson i link do dziennika dla kodu.
  • Podczas uruchamiania kodu Poissona wychodzę z ostrzeżeniami „In dpois (y, mu, log = TRUE): non-integer x = ...”.

Pomocne wątki SE według wskazówek Bena:

  1. Podstawowa matematyka przesunięć w regresji Poissona
  2. Wpływ przesunięć na współczynniki
  3. Różnica między użyciem ekspozycji jako zmiennej kowariancyjnej a offsetem
Frank H.
źródło
Czy dystrybucja Tweedie nie byłaby lepszym pomysłem?
duffymo
Wypróbowałem Tweedie od samego początku, ale nasze dane dotyczące strat nie są ugruntowane, ale raczej w nadmiarze. Wypróbowałem również modele ujemnych dwumianów, ZIP i przeszkód, aby rozwiązać dyspersję zliczania.
Frank H.
1
czy możesz wyjaśnić nieco więcej, skąd pochodzą wartości niecałkowite w twoich danych?
Ben Bolker
6
nie powinieneś modelować częstotliwości / stawek obliczając współczynniki counts/exposure. Należy raczej dodać offset(log(exposure))termin offset ( ) do swoich modeli.
Ben Bolker
1
Jest to praktyczne, choć najważniejsze przy modelowaniu Poissona (nie quasi-Poissona). Nie znam dobrych referencji; jeśli nie możesz znaleźć tutaj odpowiedniej odpowiedzi na CrossValidated, byłoby to dobre pytanie uzupełniające.
Ben Bolker

Odpowiedzi:

25

To prawie duplikat ; powiązane pytanie wyjaśnia, że ​​nie należy oczekiwać oszacowań współczynników, odchylenia resztkowego ani stopni swobody zmiany. Jedyną rzeczą, która zmienia się przy przechodzeniu z Poissona do quasi-Poissona, jest to, że parametr skali, który został wcześniej ustalony na 1, jest obliczany na podstawie pewnego oszacowania resztkowej zmienności / wad dopasowania (zwykle szacowanego na podstawie sumy kwadratów reszt Pearsona (χ2)p

p

  • Jak komentujesz powyżej, istnieje wiele różnych podejść do naddyspersji (Tweedie, różne ujemne parametryzacje dwumianowe, quasi-prawdopodobieństwo, zerowa inflacja / zmiana).
  • Przy współczynniku naddyspersji> 5 (8,4) martwiłbym się trochę, czy wynika to z jakiegoś rodzaju niedopasowania modelu (wartości odstające, zerowa inflacja [które widzę, że już próbowałeś], nieliniowość), a nie niż reprezentowanie wszechstronności. Moje ogólne podejście do tego polega na graficznym badaniu surowych danych i diagnostyce regresji ...
Ben Bolker
źródło
Bardzo pomocne. Widzę teraz, że wartości p dla zmiennych i poziomów zmiennych w Poissonie są znacznie bardziej istotne statystycznie niż w przypadku Quasi-Poissona, ze względu na wspomniane skalowanie. Testowałem na wartości odstające, ale nie uważałem tego za problem. Jakie mogą być inne problemy maskowane przez nadmierną dyspersję lub przykłady takich podejść w celu znalezienia tych problemów?
Frank H.
Przeważnie nieliniowość odpowiedzi w skali linków (logów); sprawdź wykresy wartości resztkowych względem dopasowanych i wykresów wartości resztowych względem predyktorów, aby sprawdzić, czy istnieją wzorce.
Ben Bolker
1
+1 Ładnie rozplanowane! Naprawdę doceniam jasność twojego pierwszego akapitu.
Alexis