Gamma ma właściwość wspólną dla lognormal; mianowicie, że gdy parametr kształtu jest utrzymywany na stałym poziomie, podczas gdy parametr skali jest zmieniany (jak to zwykle się dzieje, gdy stosuje się oba modele), wariancja jest proporcjonalna do średniej kwadratowej (stały współczynnik zmienności).
Coś zbliżonego do tego zdarza się dość często w przypadku danych finansowych, a nawet w przypadku wielu innych rodzajów danych.
W rezultacie często jest odpowiedni dla danych, które są ciągłe, dodatnie, o przesunięciu w prawo i gdzie wariancja jest prawie stała w skali logarytmicznej, chociaż istnieje wiele innych dobrze znanych (i często dość łatwo dostępnych) wyborów z tymi nieruchomości.
Co więcej, często łączy się log-link z gamma GLM (stosunkowo rzadko używa się naturalnego linku). To, co nieznacznie różni się od dopasowania normalnego modelu liniowego do logów danych, polega na tym, że w skali logarytmicznej gamma jest odchylana w różnym stopniu, podczas gdy normalna (log lognormalna) jest symetryczna. To sprawia, że (gamma) jest przydatny w różnych sytuacjach.
Widziałem praktyczne zastosowania GLM gamma omówione (z prawdziwymi przykładami danych) w (z góry mojej głowy) de Jong & Heller i Frees oraz liczne artykuły; Widziałem także aplikacje w innych obszarach. Aha, i jeśli dobrze pamiętam, Venables i Ripley's MASS używają go do nieobecności w szkole (dane quine; Edycja: okazuje się, że tak naprawdę jest w Uzupełnieniu statystyk do MASS , patrz p11, 14 strona pdf, ma link do dziennika, ale jest mała zmiana DV). Uh, McCullagh i Nelder zrobili przykład krzepnięcia krwi, chociaż być może był to naturalny związek.
Jest też książka Faraway, w której zrobił przykład ubezpieczenia samochodu i przykład danych o produkcji półprzewodników.
Wybór jednej z dwóch opcji ma pewne zalety i wady. Ponieważ w tych dniach oba są łatwe do dopasowania; ogólnie rzecz biorąc, chodzi o wybór tego, co jest najbardziej odpowiednie.
To dalekie od jedynej opcji; na przykład, istnieją również odwrotne GLM Gaussa, które są bardziej pochylone / cięższe ogonowe (a nawet bardziej heteroskedastyczne) niż gamma lub lognormalne.
Jeśli chodzi o wady, trudniej jest robić przedziały prognozowania. Niektóre wyświetlacze diagnostyczne są trudniejsze do interpretacji. Obliczanie oczekiwań w skali predyktora liniowego (ogólnie skali logarytmicznej) jest trudniejsze niż w przypadku równoważnego modelu lognormalnego. Testy hipotez i odstępy czasu są na ogół asymptotyczne. Są to często stosunkowo niewielkie problemy.
Ma pewne zalety w stosunku do regresji logarytmicznej log-link (pobieranie logów i dopasowywanie zwykłego modelu regresji liniowej); po pierwsze, przewidywanie jest łatwe.
To dobre pytanie. W rzeczywistości, dlaczego ludzie nie używają uogólnionych modeli liniowych (GLM), to również dobre pytanie.
Uwaga: niektóre osoby używają GLM do ogólnego modelu liniowego, a nie o tym tutaj chodzi.
To zależy od tego, gdzie spojrzysz. Na przykład rozkłady gamma są popularne w kilku naukach o środowisku od kilku dziesięcioleci, dlatego modelowanie za pomocą zmiennych predykcyjnych jest naturalnym rozszerzeniem. Jest wiele przykładów w hydrologii i geomorfologii, aby wymienić niektóre dziedziny, w których błąkam się.
Trudno określić, kiedy należy go używać poza pustą odpowiedzią, ilekroć działa najlepiej. Biorąc pod uwagę wypaczone pozytywne dane, często próbuję znaleźć modele gamma i lognormalne (w kontekście dziennika GLM, normalna lub gaussowska rodzina) i wybrać, który z nich działa lepiej.
Modelowanie gamma pozostawało dość trudne do niedawna, z pewnością w porównaniu z powiedzeniem rejestrowania logów i stosowania regresji liniowych, bez samodzielnego pisania dużej ilości kodu. Nawet teraz sądzę, że nie jest to równie łatwe we wszystkich głównych środowiskach oprogramowania statystycznego.
Wyjaśniając, co jest używane, a co nie jest używane, pomimo zalet i wad, myślę, że zawsze sprowadzasz się do dokładnie tego rodzaju czynników, które identyfikujesz: czego się uczy, co w literaturze czyta się, o czym ludzie mówią praca i konferencje. Potrzebujesz więc czegoś w rodzaju amatorskiej socjologii nauki do wyjaśnienia. Większość ludzi wydaje się podążać prostymi i wąskimi ścieżkami na swoich polach. Luźniej, im większa wewnętrzna literatura w dowolnej dziedzinie na temat technik modelowania, tym mniej skłonni ludzie w tej dziedzinie wydają się próbować czegoś innego.
źródło
Regresja gamma jest w GLM, dzięki czemu można uzyskać wiele przydatnych ilości do celów diagnostycznych, takich jak resztki odchyleń, dźwignie, odległość Cooka i tak dalej. Być może nie są tak ładne, jak odpowiadające im ilości danych przekształcanych w logach.
Jedną z rzeczy, których regresja gamma unika w porównaniu do logarytmu normalnego, jest stronniczość transformacji. Nierówność Jensena oznacza, że przewidywania z regresji logarytmicznej będą systematycznie tendencyjne, ponieważ modelują przekształcone dane, a nie przekształconą wartość oczekiwaną.
Ponadto regresja gamma (lub inne modele dla danych nieujemnych) może poradzić sobie z szerszym zestawem danych niż logarytmiczny ze względu na fakt, że może mieć tryb na 0, taki jak ty z rozkładem wykładniczym, który jest w gamma rodzina, co jest niemożliwe dla lognormal.
Czytałem sugestie, że użycie prawdopodobieństwa Poissona jako quasi-prawdopodobieństwa jest bardziej stabilne. Są od siebie sprzężeni. Quasi-Poisson ma również znaczną zaletę, że jest w stanie poradzić sobie z dokładnymi wartościami 0, które mają problem zarówno z gamma, a zwłaszcza z logarytmem normalnym.
źródło
Moim zdaniem zakłada, że błędy leżą w rodzinie rozkładów gamma, o tych samych kształtach i skalach zmieniających się zgodnie z odpowiednią formułą.
Ale trudno jest przeprowadzić diagnostykę modelową. Zauważ, że prosty wykres QQ nie jest tutaj odpowiedni, ponieważ dotyczy mniej więcej tego samego rozkładu, podczas gdy nasz jest rodziną rozkładów o różnych wariancjach.
Naiwnie można użyć wykresu resztek, aby zobaczyć, że mają różne skale, ale ten sam kształt, zwykle z długimi ogonami.
Z mojego doświadczenia wynika, że gamma GLM może być wypróbowywana w przypadku niektórych problemów z długimi ogonami i jest szeroko stosowana w sektorach ubezpieczeń i ochrony środowiska itp. Ale założenia są trudne do przetestowania, a model zwykle nie działa dobrze, więc różne dokumenty twierdzą, że używają innych rozkładów rodzin z tym samym problemem, takich jak odwrotny Gaussian itp. W praktyce wydaje się, że takie wybory zależą od fachowej oceny z doświadczeniem przemysłowym. Ogranicza to użycie gamma GLM.
źródło