Dlaczego mieliby tutaj wybrać rozkład gamma?

14

W jednym z ćwiczeń na moim kursie korzystamy z medycznego zestawu danych Kaggle .

Ćwiczenie mówi:

chcemy modelować rozkład poszczególnych ładunków, a także naprawdę chcieć uchwycić naszą niepewność co do tego rozkładu, abyśmy mogli lepiej uchwycić zakres wartości, które możemy zobaczyć. Ładowanie danych i wykonywanie początkowego widoku:

wątek

Z powyższego możemy podejrzewać, że w grę wchodzi tutaj rozkład wykładniczy. ... Opłaty za roszczenia ubezpieczeniowe mogą być multimodalne. Rozkład gamma może mieć zastosowanie i możemy to przetestować pod kątem rozkładu obciążeń, które nie były wcześniej roszczeniami ubezpieczeniowymi.

I spojrzał w górę „rozkład Gamma” i stwierdził „ciągłą, dodatnio tylko jednomodalny rozkład, który koduje czas wymagany do alfa«»zdarzenia zachodzące w procesie Poissona ze średniego czasu przybycia«beta»”

Nie ma tu czasu, tylko niepowiązane opłaty, ubezpieczone lub nie.

Dlaczego mieliby wybrać rozkład gamma?

Vicki B.
źródło

Odpowiedzi:

27

Jeśli rozważasz proste modele parametryczne dla warunkowego rozkładu danych (tj. Rozkład każdej grupy lub rozkład oczekiwany dla każdej kombinacji zmiennych predykcyjnych) i masz do czynienia z dodatnim rozkładem ciągłym , dwie powszechne opcje to Gamma i log-Normal . Oprócz spełnienia specyfikacji dziedziny rozkładu (liczby rzeczywiste większe od zera), rozkłady te są wygodne obliczeniowo i często mają sens mechanistyczny.

  • Rozkład log-normalny można łatwo wyprowadzić przez wykładnik rozkładu normalnego (odwrotnie, przekształcenie log-normalne odchylenia daje odchylenie normalne). Z mechanistycznego punktu widzenia log-Norma powstaje poprzez Twierdzenie o granicy centralnej, gdy każda obserwacja odzwierciedla iloczyn dużej liczby iid zmiennych losowych. Po przekształceniu danych w dane masz dostęp do szerokiej gamy narzędzi obliczeniowych i analitycznych (np. Wszystko zakładające normalność lub metody najmniejszych kwadratów).
  • Jak wskazuje twoje pytanie, jednym ze sposobów, w jaki powstaje rozkład gamma, jest rozkład czasów oczekiwania do wystąpienia niezależnych zdarzeń o stałym czasie oczekiwania . Nie mogę łatwo znaleźć odniesienia do mechanistycznego modelu rozkładów gamma roszczeń ubezpieczeniowych, ale sensowne jest również zastosowanie rozkładu gamma z fenomenologicznego (tj. Opisu danych / wygody obliczeniowej). Rozkład gamma jest częścią rodziny wykładniczej (która obejmuje normalną, ale nie log-normalną), co oznacza, że ​​wszystkie mechanizmy uogólnionych modeli liniowychnλjest dostępny; ma również szczególnie dogodną formę do analizy.

Są inne powody, dla których można wybrać jedno lub drugie - na przykład „ciężar” ogona rozkładu , który może być ważny w przewidywaniu częstotliwości zdarzeń ekstremalnych. Istnieje wiele innych pozytywnych, ciągłych dystrybucji (np. Patrz ta lista ), ale zwykle są one używane w bardziej specjalistycznych aplikacjach.

Bardzo niewiele z tych rozkładów uchwyci multimodalność, którą widzisz w rozkładach brzeżnych powyżej, ale multimodalność może być wyjaśniona przez pogrupowanie danych w kategorie opisane przez obserwowane predyktory jakościowe. Jeśli nie ma obserwowalnych predyktorów wyjaśniających multimodalność, można wybrać model skończonej mieszanki oparty na mieszance (małej, dyskretnej) liczby dodatnich ciągłych rozkładów.

Ben Bolker
źródło
1
Warto również zauważyć, że modele gamma i lognormalne dają prawie zawsze bardzo podobne wyniki
Carlo
2
Pracuję w badaniach usług zdrowotnych. Mogę potwierdzić, że ogólnie rozkład gamma lub logarytmiczny byłby właściwym wyborem dla modelu wydatków na opiekę zdrowotną lub kwot roszczeń. Rozkład gamma można wykorzystać w czasie do modeli zdarzeń, ale nie mają one zastosowania tutaj.
Weiwen Ng
Dzięki!! To było bardzo pomocne.
Vicki B