Kiedy stosować GLM gamma?

88

Rozkład gamma może przybierać dość szeroki zakres kształtów, a biorąc pod uwagę związek między średnią a wariancją poprzez jego dwa parametry, wydaje się on odpowiedni do radzenia sobie z heteroskedastycznością w danych nieujemnych, w sposób, w jaki transformowany logarytmicznie OLS może nie obejdzie się bez WLS ani jakiegoś estymatora VCV zgodnego z heteroskedastycznością.

Użyłbym go bardziej do rutynowego nieujemnego modelowania danych, ale nie znam nikogo, kto by go używał, nie nauczyłem się tego w formalnych warunkach klasowych, a literatura, którą czytam, nigdy go nie używa. Ilekroć używam Google czegoś w rodzaju „praktycznych zastosowań gamma GLM”, wpadam na radę, aby wykorzystać go na czas oczekiwania między wydarzeniami Poissona. DOBRZE. Ale to wydaje się restrykcyjne i nie może być jego jedynym zastosowaniem.

Naiwnie wydaje się, że GLM gamma jest stosunkowo lekkim założeniem do modelowania danych nieujemnych, biorąc pod uwagę elastyczność gamma. Oczywiście musisz sprawdzić wykresy QQ i wykresy resztkowe, jak każdy model. Ale czy brakuje mi poważnych wad? Poza komunikacją dla osób, które „po prostu uruchamiają OLS”?

użytkownik_ogólny
źródło

Odpowiedzi:

57

Gamma ma właściwość wspólną dla lognormal; mianowicie, że gdy parametr kształtu jest utrzymywany na stałym poziomie, podczas gdy parametr skali jest zmieniany (jak to zwykle się dzieje, gdy stosuje się oba modele), wariancja jest proporcjonalna do średniej kwadratowej (stały współczynnik zmienności).

Coś zbliżonego do tego zdarza się dość często w przypadku danych finansowych, a nawet w przypadku wielu innych rodzajów danych.

W rezultacie często jest odpowiedni dla danych, które są ciągłe, dodatnie, o przesunięciu w prawo i gdzie wariancja jest prawie stała w skali logarytmicznej, chociaż istnieje wiele innych dobrze znanych (i często dość łatwo dostępnych) wyborów z tymi nieruchomości.

Co więcej, często łączy się log-link z gamma GLM (stosunkowo rzadko używa się naturalnego linku). To, co nieznacznie różni się od dopasowania normalnego modelu liniowego do logów danych, polega na tym, że w skali logarytmicznej gamma jest odchylana w różnym stopniu, podczas gdy normalna (log lognormalna) jest symetryczna. To sprawia, że ​​(gamma) jest przydatny w różnych sytuacjach.

Widziałem praktyczne zastosowania GLM gamma omówione (z prawdziwymi przykładami danych) w (z góry mojej głowy) de Jong & Heller i Frees oraz liczne artykuły; Widziałem także aplikacje w innych obszarach. Aha, i jeśli dobrze pamiętam, Venables i Ripley's MASS używają go do nieobecności w szkole (dane quine; Edycja: okazuje się, że tak naprawdę jest w Uzupełnieniu statystyk do MASS , patrz p11, 14 strona pdf, ma link do dziennika, ale jest mała zmiana DV). Uh, McCullagh i Nelder zrobili przykład krzepnięcia krwi, chociaż być może był to naturalny związek.

Jest też książka Faraway, w której zrobił przykład ubezpieczenia samochodu i przykład danych o produkcji półprzewodników.

Wybór jednej z dwóch opcji ma pewne zalety i wady. Ponieważ w tych dniach oba są łatwe do dopasowania; ogólnie rzecz biorąc, chodzi o wybór tego, co jest najbardziej odpowiednie.

To dalekie od jedynej opcji; na przykład, istnieją również odwrotne GLM Gaussa, które są bardziej pochylone / cięższe ogonowe (a nawet bardziej heteroskedastyczne) niż gamma lub lognormalne.

Jeśli chodzi o wady, trudniej jest robić przedziały prognozowania. Niektóre wyświetlacze diagnostyczne są trudniejsze do interpretacji. Obliczanie oczekiwań w skali predyktora liniowego (ogólnie skali logarytmicznej) jest trudniejsze niż w przypadku równoważnego modelu lognormalnego. Testy hipotez i odstępy czasu są na ogół asymptotyczne. Są to często stosunkowo niewielkie problemy.

Ma pewne zalety w stosunku do regresji logarytmicznej log-link (pobieranie logów i dopasowywanie zwykłego modelu regresji liniowej); po pierwsze, przewidywanie jest łatwe.

Glen_b
źródło
3
Czy powinna to być „Gamma” czy „gamma”? Wiemy, że nie jest nazwany dla osoby. Znacznie częściej widywałem małe litery „g”. Najwyraźniej rozkład nazwany jest od funkcji, która sięga XVIII wieku.
Nick Cox,
2
notacja jest jedynym powodem Widziałem dla danego zastosowania. W przypadku rozkładów wielkie litery zwykle powtarzają nazwiska, np. Poisson lub Gaussian, jak wiadomo. Γ
Nick Cox,
@NickCox Zmieniłem to, jak sugerujesz, i naprawiłem „Odwrotny Gaussian”, gdy na nim byłem.
Glen_b
1
@Gleb_b: Czy nadal używasz linku dziennika z odwrotną rodziną Gaussa?
Dimitriy V. Masterov,
@ DimitriyV.Masterov Jest mniej używany, więc trudniej jest go uogólnić. Z tego, co widziałem, dość często stosuje się link log z odwrotnym gaussowskim, ale w niektórych sytuacjach odpowiednie mogą być inne łącza, takie jak link odwrotny.
Glen_b,
28

To dobre pytanie. W rzeczywistości, dlaczego ludzie nie używają uogólnionych modeli liniowych (GLM), to również dobre pytanie.

Uwaga: niektóre osoby używają GLM do ogólnego modelu liniowego, a nie o tym tutaj chodzi.

  • To zależy od tego, gdzie spojrzysz. Na przykład rozkłady gamma są popularne w kilku naukach o środowisku od kilku dziesięcioleci, dlatego modelowanie za pomocą zmiennych predykcyjnych jest naturalnym rozszerzeniem. Jest wiele przykładów w hydrologii i geomorfologii, aby wymienić niektóre dziedziny, w których błąkam się.

  • Trudno określić, kiedy należy go używać poza pustą odpowiedzią, ilekroć działa najlepiej. Biorąc pod uwagę wypaczone pozytywne dane, często próbuję znaleźć modele gamma i lognormalne (w kontekście dziennika GLM, normalna lub gaussowska rodzina) i wybrać, który z nich działa lepiej.

  • Modelowanie gamma pozostawało dość trudne do niedawna, z pewnością w porównaniu z powiedzeniem rejestrowania logów i stosowania regresji liniowych, bez samodzielnego pisania dużej ilości kodu. Nawet teraz sądzę, że nie jest to równie łatwe we wszystkich głównych środowiskach oprogramowania statystycznego.

  • Wyjaśniając, co jest używane, a co nie jest używane, pomimo zalet i wad, myślę, że zawsze sprowadzasz się do dokładnie tego rodzaju czynników, które identyfikujesz: czego się uczy, co w literaturze czyta się, o czym ludzie mówią praca i konferencje. Potrzebujesz więc czegoś w rodzaju amatorskiej socjologii nauki do wyjaśnienia. Większość ludzi wydaje się podążać prostymi i wąskimi ścieżkami na swoich polach. Luźniej, im większa wewnętrzna literatura w dowolnej dziedzinie na temat technik modelowania, tym mniej skłonni ludzie w tej dziedzinie wydają się próbować czegoś innego.

Nick Cox
źródło
1
Jak określić, który z nich działa lepiej?
Dimitriy V. Masterov,
7
Patrzę na prawdopodobieństwa, kwadraty R (pomimo tego, co mówią ludzie), przedziały ufności wokół oszacowań parametrów, wykresy obserwowanych vs dopasowanych, resztkowych vs dopasowanych itp. Gdyby istniała nauka faworyzująca jeden model nad drugim, to też by to ważyło, ale w z mojego doświadczenia nauka nie jest tak dobrze uformowana. Jak inaczej można to zrobić?
Nick Cox,
@NickCox Na co powinniśmy zwrócić uwagę, gdy analiza jest obserwowana w porównaniu z dopasowaniem, reszty w porównaniu z dopasowanym i normalnym wykresem qq? Rozumiem, że to może się różnić w zależności od modelu. Czy możesz podać przykład gamma, poissona i dwumianu ujemnego? Dzięki
tatami,
@tatami Myślę, że to zupełnie nowe pytanie. Jeśli o to poprosisz, zobaczysz, kto gryzie. Nigdy nie myślałem, że model gamma i ujemny model dwumianowy są rywalami w każdym projekcie, ale może to być brak wyobraźni lub doświadczenia.
Nick Cox,
13

Regresja gamma jest w GLM, dzięki czemu można uzyskać wiele przydatnych ilości do celów diagnostycznych, takich jak resztki odchyleń, dźwignie, odległość Cooka i tak dalej. Być może nie są tak ładne, jak odpowiadające im ilości danych przekształcanych w logach.

Jedną z rzeczy, których regresja gamma unika w porównaniu do logarytmu normalnego, jest stronniczość transformacji. Nierówność Jensena oznacza, że ​​przewidywania z regresji logarytmicznej będą systematycznie tendencyjne, ponieważ modelują przekształcone dane, a nie przekształconą wartość oczekiwaną.

Ponadto regresja gamma (lub inne modele dla danych nieujemnych) może poradzić sobie z szerszym zestawem danych niż logarytmiczny ze względu na fakt, że może mieć tryb na 0, taki jak ty z rozkładem wykładniczym, który jest w gamma rodzina, co jest niemożliwe dla lognormal.

Czytałem sugestie, że użycie prawdopodobieństwa Poissona jako quasi-prawdopodobieństwa jest bardziej stabilne. Są od siebie sprzężeni. Quasi-Poisson ma również znaczną zaletę, że jest w stanie poradzić sobie z dokładnymi wartościami 0, które mają problem zarówno z gamma, a zwłaszcza z logarytmem normalnym.

Jay Verkuilen
źródło
11

Moim zdaniem zakłada, że ​​błędy leżą w rodzinie rozkładów gamma, o tych samych kształtach i skalach zmieniających się zgodnie z odpowiednią formułą.

Ale trudno jest przeprowadzić diagnostykę modelową. Zauważ, że prosty wykres QQ nie jest tutaj odpowiedni, ponieważ dotyczy mniej więcej tego samego rozkładu, podczas gdy nasz jest rodziną rozkładów o różnych wariancjach.

Naiwnie można użyć wykresu resztek, aby zobaczyć, że mają różne skale, ale ten sam kształt, zwykle z długimi ogonami.

Z mojego doświadczenia wynika, że ​​gamma GLM może być wypróbowywana w przypadku niektórych problemów z długimi ogonami i jest szeroko stosowana w sektorach ubezpieczeń i ochrony środowiska itp. Ale założenia są trudne do przetestowania, a model zwykle nie działa dobrze, więc różne dokumenty twierdzą, że używają innych rozkładów rodzin z tym samym problemem, takich jak odwrotny Gaussian itp. W praktyce wydaje się, że takie wybory zależą od fachowej oceny z doświadczeniem przemysłowym. Ogranicza to użycie gamma GLM.

Vincent
źródło