Z moich wyników wynika, że GLM Gamma spełnia większość założeń, ale czy jest to opłacalne ulepszenie w stosunku do transformowanego logarytmicznie LM? Większość literatury, którą znalazłem, dotyczyła Poissona lub dwumianowego GLM. Uważam, że artykuł OCENA OGÓLNYCH ZAŁOŻEŃ MODELI LINIOWYCH Z WYKORZYSTANIEM LANDOMIZACJI jest bardzo przydatny, ale brakuje w nim faktycznych wykresów użytych do podjęcia decyzji. Mam nadzieję, że ktoś z doświadczeniem może wskazać mi właściwy kierunek.
Chcę modelować rozkład mojej zmiennej odpowiedzi T, której rozkład przedstawiono na wykresie poniżej. Jak widać, to jest dodatnia skośność:
.
Mam dwa kategoryczne czynniki do rozważenia: METH i CASEPART.
Zauważ, że to badanie ma głównie charakter eksploracyjny, zasadniczo służy jako badanie pilotażowe przed opracowaniem modelu i wykonaniem DoE wokół niego.
Mam następujące modele w R z ich wykresami diagnostycznymi:
LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)
GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))
GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))
Osiągnąłem również następujące wartości P za pomocą testu Shapiro-Wilks na pozostałościach:
LM.LOG: 2.347e-11
GLM.GAMMA: 0.6288
GLM.GAUS: 0.6288
Obliczyłem wartości AIC i BIC, ale jeśli mam rację, nie mówią mi wiele z powodu różnych rodzin w GLM / LM.
Zwróciłem też uwagę na wartości ekstremalne, ale nie mogę ich zaklasyfikować jako wartości odstające, ponieważ nie ma wyraźnej „specjalnej przyczyny”.
Odpowiedzi:
Cóż, całkiem jasne, logarytmiczne dopasowanie do Gaussa jest nieodpowiednie; w pozostałościach występuje silna heteroskedastyczność. Więc weźmy to pod uwagę.
To, co zostało, jest lognormalne vs. gamma.
Każdy model wydaje się w tym przypadku prawie równie odpowiedni. Oba mają wariancję proporcjonalną do kwadratu średniej, więc wzór rozpiętości reszt względem dopasowania jest podobny.
Niska wartość odstająca będzie nieco lepiej pasować do wartości gamma niż wartość logarytmiczna (odwrotnie dla wartości wysokiej wartości odstającej). Przy danej średniej i wariancji lognormal jest bardziej pochylony i ma wyższy współczynnik zmienności.
Zobacz także tutaj i tutaj, aby uzyskać kilka powiązanych dyskusji.
źródło