Próbowałem dowiedzieć się, które dystrybucje używać w GLM, i trochę się zastanawiam, kiedy użyć normalnej dystrybucji. W jednej części mojego podręcznika jest napisane, że rozkład normalny może być dobry do modelowania wyników egzaminów. W następnej części pyta się, jaka dystrybucja byłaby odpowiednia do modelowania roszczenia z tytułu ubezpieczenia samochodu. Tym razem powiedziano, że odpowiednie rozkłady będą gamma lub odwrotne gaussowskie, ponieważ są one ciągłe z jedynie dodatnimi wartościami. Uważam, że wyniki egzaminów byłyby również ciągłe z dodatnimi wartościami, więc dlaczego mielibyśmy stosować tam rozkład normalny? Czy rozkład normalny nie uwzględnia wartości ujemnych?
normal-distribution
generalized-linear-model
gamma-distribution
inverse-gaussian-distrib
mistersunnyd
źródło
źródło
Odpowiedzi:
Na przykład wysokość jest często modelowana jako normalna. Może wysokość mężczyzn wynosi około 5 stóp 10 przy standardowym odchyleniu 2 cali. Wiemy, że wysokość ujemna jest niefizyczna, ale w tym modelu prawdopodobieństwo zaobserwowania wysokości ujemnej jest zasadniczo zerowe. Mimo to używamy modelu, ponieważ jest on wystarczająco dobry w przybliżeniu.
Wszystkie modele są złe. Pytanie brzmi: „czy ten model może być nadal przydatny”, a w przypadkach, w których modelujemy takie rzeczy jak wysokość i wyniki testów, modelowanie zjawiska w normalny sposób jest przydatne, mimo że technicznie pozwala na rzeczy niefizyczne.
źródło
Poprawny. Nie ma również górnej granicy.
Mimo wcześniejszych stwierdzeń czasami tak jest. Jeśli masz wiele elementów do testu, niezbyt silnie powiązanych (np. Więc nie jesteś zasadniczo tym samym pytaniem kilkanaście razy, ani nie musisz mieć każdej części wymagającej poprawnej odpowiedzi na poprzednią część) i nie jest to bardzo łatwe lub bardzo trudne ( tak, że większość znaków znajduje się gdzieś pośrodku), wówczas znaki mogą często być dość dobrze przybliżone przez normalny rozkład; często na tyle dobrze, że typowe analizy nie powinny budzić obaw.
Wiemy na pewno, że nie są one normalne , ale nie stanowi to automatycznie problemu - o ile zachowanie procedur, które stosujemy, są wystarczająco zbliżone do tego, jakie powinny być dla naszych celów (np. Standardowe błędy, przedziały ufności, poziomy istotności i moc - zależnie od tego, co jest potrzebne - rób to, czego oczekujemy)
Tak, ale co więcej - mają tendencję do silnego pochylania, a zmienność zwykle rośnie, gdy średnia staje się większa.
Oto przykład rozkładu wielkości roszczenia dla roszczeń pojazdów:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Ryc. 5 z Garrido, Genest & Schulz (2016) „Uogólnione modele liniowe dla zależnej częstotliwości i dotkliwości roszczeń ubezpieczeniowych”, Ubezpieczenia: Matematyka i ekonomia, tom 70, wrzesień, str. 205–215. Https: //www.sciencedirect com / science / article / pii / S0167668715303358 )
To pokazuje typowy przekrzywiony prawy i ciężki prawy ogon. Musimy jednak być bardzo ostrożni, ponieważ jest to rozkład krańcowy i piszemy model rozkładu warunkowego , który zwykle będzie znacznie mniej przekrzywiany (rozkład krańcowy, na który patrzymy, jeśli wykonamy tylko histogram rozmiarów oświadczeń będących mieszaniną tych rozkładów warunkowych). Niemniej jednak zwykle jest tak, że jeśli spojrzymy na wielkość twierdzenia w podgrupach predyktorów (być może kategoryzujących zmienne ciągłe), to rozkład jest nadal silnie prawy i dość ostry po prawej stronie, co sugeruje, że coś w rodzaju modelu gamma * jest prawdopodobnie będzie znacznie bardziej odpowiedni niż model Gaussa.
* może istnieć dowolna liczba innych rozkładów, które byłyby bardziej odpowiednie niż Gaussa - odwrotny Gaussian to inny wybór - choć mniej powszechny; Modele lognormal lub Weibull, chociaż nie są GLM-ami, mogą być całkiem przydatne.
[Rzadko zdarza się, aby którakolwiek z tych dystrybucji była prawie idealna; są niedokładnymi przybliżeniami, ale w wielu przypadkach są wystarczająco dobre, aby analiza była przydatna i miała zbliżone do pożądanych właściwości.]
Ponieważ (w warunkach, o których wspomniałem wcześniej - wiele komponentów, niezbyt zależnych, nie trudnych lub łatwych) dystrybucja jest raczej zbliżona do symetrycznej, unimodalnej i niezbyt ciężkiej.
źródło
Wyniki egzaminów mogą być lepiej modelowane przez rozkład dwumianowy. W bardzo uproszczonym przypadku możesz mieć 100 pytań typu prawda / fałsz, każdy o wartości 1 punktu, więc wynikiem będzie liczba całkowita od 0 do 100. Jeśli nie przyjmiesz korelacji między poprawnością osoby badanej od problemu do problemu (wątpliwe założenie ), wynik jest sumą niezależnych zmiennych losowych i zastosowanie ma Centralne Twierdzenie Graniczne. Wraz ze wzrostem liczby pytań część poprawnych problemów zbliża się do rozkładu normalnego.
Zadajesz dobre pytanie na temat wartości mniejszych niż 0. Możesz również zadać to samo pytanie na temat wartości większych niż 100%. Wraz ze wzrostem liczby pytań testowych wariancja sumy maleje, więc pik zostaje przyciągnięty do średniej. Podobnie, najlepiej dopasowany rozkład normalny będzie miał mniejszą wariancję, a waga pliku pdf poza przedziałem [0, 1] zmierza w kierunku 0, chociaż zawsze będzie niezerowa. Zmniejszy się również przestrzeń między możliwymi wartościami „poprawnej części” (1/100 dla 100 pytań, 1/1000 dla 1000 pytań itp.), Więc nieoficjalnie pdf zaczyna zachowywać się coraz bardziej jak ciągły pdf.
źródło