Logma sprzężona z Gamma GLM a logarytmiczny Gaussian GLM a logarytm transformowany LM

13

Z moich wyników wynika, że ​​GLM Gamma spełnia większość założeń, ale czy jest to opłacalne ulepszenie w stosunku do transformowanego logarytmicznie LM? Większość literatury, którą znalazłem, dotyczyła Poissona lub dwumianowego GLM. Uważam, że artykuł OCENA OGÓLNYCH ZAŁOŻEŃ MODELI LINIOWYCH Z WYKORZYSTANIEM LANDOMIZACJI jest bardzo przydatny, ale brakuje w nim faktycznych wykresów użytych do podjęcia decyzji. Mam nadzieję, że ktoś z doświadczeniem może wskazać mi właściwy kierunek.

Chcę modelować rozkład mojej zmiennej odpowiedzi T, której rozkład przedstawiono na wykresie poniżej. Jak widać, to jest dodatnia skośność:
Prawidłowy XHTML.

Mam dwa kategoryczne czynniki do rozważenia: METH i CASEPART.
Zauważ, że to badanie ma głównie charakter eksploracyjny, zasadniczo służy jako badanie pilotażowe przed opracowaniem modelu i wykonaniem DoE wokół niego.

Mam następujące modele w R z ich wykresami diagnostycznymi:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

Prawidłowy XHTML
Prawidłowy XHTML

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

Prawidłowy XHTML
Prawidłowy XHTML

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

Prawidłowy XHTML
Prawidłowy XHTML

Osiągnąłem również następujące wartości P za pomocą testu Shapiro-Wilks na pozostałościach:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288  

Obliczyłem wartości AIC i BIC, ale jeśli mam rację, nie mówią mi wiele z powodu różnych rodzin w GLM / LM.

Zwróciłem też uwagę na wartości ekstremalne, ale nie mogę ich zaklasyfikować jako wartości odstające, ponieważ nie ma wyraźnej „specjalnej przyczyny”.

TLJ
źródło
1
Warto zauważyć, że wszystkie trzy modele są multiplikatywne w tym sensie, że wzrost regresora jest związany ze względną zmianą typowej odpowiedzi. Dla dwóch logarytmiczno-liniowych GLM „typowy” oznacza średnią arytmetyczną, podczas gdy dla transformowanej logarytmicznie LM mówimy o środkach geometrycznych. Tak więc sposób, w jaki chcesz interpretować efekty i prognozy, jest również czynnikiem decydującym o wyborze modelu, nie tylko mając doskonałe wykresy resztkowe (i tak są one sterowane danymi).
Michael M
@MichaelMayer - Dziękuję za odpowiedź, bardzo pomocna. Czy mógłbyś nieco rozwinąć kwestię, w jaki sposób wybór wpływa na interpretację? Lub skieruj mnie w stronę referencji?
TLJ
@ Marcinthebox- Przejrzałem to pytanie przed opublikowaniem. Nie bardzo zwięźle odpowiada na moje pytanie.
TLJ,

Odpowiedzi:

19

Cóż, całkiem jasne, logarytmiczne dopasowanie do Gaussa jest nieodpowiednie; w pozostałościach występuje silna heteroskedastyczność. Więc weźmy to pod uwagę.

To, co zostało, jest lognormalne vs. gamma.

T.

Każdy model wydaje się w tym przypadku prawie równie odpowiedni. Oba mają wariancję proporcjonalną do kwadratu średniej, więc wzór rozpiętości reszt względem dopasowania jest podobny.

Niska wartość odstająca będzie nieco lepiej pasować do wartości gamma niż wartość logarytmiczna (odwrotnie dla wartości wysokiej wartości odstającej). Przy danej średniej i wariancji lognormal jest bardziej pochylony i ma wyższy współczynnik zmienności.

exp(μ)σ2)

Zobacz także tutaj i tutaj, aby uzyskać kilka powiązanych dyskusji.

Glen_b - Przywróć Monikę
źródło
1
@Gleb_b ta odpowiedź jest bardzo przydatna do mojej analizy. Mam parę pytań. (1) Po pierwsze, czy jest to „Oba mają wariancję proporcjonalną do kwadratu średniej ...” w oparciu o wykres rezydualny vs dopasowany? (2) A czy to „Niska wartość odstająca będzie nieco lepiej pasować do gamma ... Przy danym środku i wariancji ...” w oparciu o wykres qq? (3) Z tego, co rozumiem, glm (np. Gamma, poissona i dwumian ujemny) nie przyjmuje założenia normalności reszt i jednorodności wariancji. Jeśli tak, to dlaczego wykreślanie reszt względem dopasowanego i normalnego wykresu qq byłoby istotne dla diagnostyki?
tatami
2
Jest to wystarczająco obszerne, aby być całkowicie nowym pytaniem, a nawet kilkoma (na większość odpowiedzi już na naszej stronie!) - 1. część modelu. 2. Nie, są to ogólne fakty dotyczące dystrybucji. 3. Prawidłowo nie są one normalne, jednak reszty użyte w wykresie QQ są resztami dewiacyjnymi (wewnętrznie uczonymi), które - szczególnie w przypadku gamma - będą zwykle bardzo zbliżone do normalnie rozłożonych (napisałem odpowiedź wyjaśniającą, dlaczego w jakiś punkt) i powinien mieć zasadniczo stałą wariancję. Pewne odchylenie od normalności nie jest nieoczekiwane, ale znaczne odchylenie ... ctd
Glen_b -Reinstate Monica 10.10.17
2
ctd ... od normalności (przy założeniu, że inne działki są w porządku) może wskazywać na problem z założeniem dystrybucyjnym.
Glen_b