Zdaję sobie sprawę, że może to być potencjalnie szerokie pytanie, ale zastanawiałem się, czy istnieją uogólnione założenia, które wskazują na użycie GAM (Uogólniony model addytywny) w stosunku do GLM (Uogólniony model liniowy)?
Ktoś niedawno powiedział mi, że GAM należy używać tylko wtedy, gdy założę, że struktura danych jest „addytywna”, tj. Oczekuję, że dodanie x pozwoli przewidzieć y. Inna osoba zwróciła uwagę, że GAM wykonuje inny typ analizy regresji niż GLM i że GLM jest preferowany, gdy można założyć liniowość.
W przeszłości korzystałem z GAM do danych ekologicznych, np .:
- ciągłe szeregi czasowe
- gdy dane nie miały kształtu liniowego
- Miałem wiele x, aby przewidzieć moje y, które, jak sądzę, miały pewne interakcje nieliniowe, które mogłem wizualizować za pomocą „wykresów powierzchniowych” wraz z testem statystycznym
Oczywiście nie bardzo rozumiem, co GAM robi inaczej niż GLM. Uważam, że jest to poprawny test statystyczny (i widzę wzrost wykorzystania GAM, przynajmniej w czasopismach ekologicznych), ale muszę wiedzieć lepiej, kiedy jego użycie jest wskazane w porównaniu z innymi analizami regresji.
źródło
Odpowiedzi:
Główną różnicą imho jest to, że podczas gdy „klasyczne” formy modeli liniowych lub uogólnionych modeli liniowych przyjmują ustaloną liniową lub jakąś inną parametryczną formę związku między zmienną zależną a zmiennymi towarzyszącymi, GAM nie przyjmuje z góry żadnej konkretnej postaci tego związek, i można go wykorzystać do ujawnienia i oszacowania nieliniowego wpływu współzmiennej na zmienną zależną. Bardziej szczegółowo, podczas gdy w (uogólnionych) modelach liniowych predyktorem liniowym jest ważona suma zmiennych towarzyszących, , w GAM ten termin jest zastępowany sumą funkcji gładkiej, np. , gdzien ∑ni = 1βjaxja ∑ni = 1∑qj = 1βjasjot( xja) s1( ⋅ ) , … , sq( ⋅ ) są gładkimi funkcjami podstawowymi (np. splajny sześcienne), a jest wymiarem podstawowym. Łącząc podstawowe funkcje, GAM mogą reprezentować dużą liczbę funkcjonalnych relacji (w tym celu opierają się na założeniu, że prawdziwa relacja prawdopodobnie będzie gładka, a nie perwersyjna). Są w zasadzie przedłużeniem GLMs, jednak są one zaprojektowane w sposób, który czyni je szczególnie przydatnymi do odkrywania nieliniowych efektów towarzyszących zmiennych liczbowych, a za to w „automatycznym” fashion (od Hastie i Tibshirani oryginalnego artykułu, mają zwanej dalej” zaletą bycia całkowicie zautomatyzowanym, tzn. statystycy nie potrzebują pracy „detektywistycznej” ).q
źródło
mgcv
zawiera wiele rzeczy, z którymi nie można zrobićglm
, ale można było to zrobić również w tym środowisku ...mgcv
)?Chciałbym podkreślić, że GAMy są znacznie bardziej elastyczne niż GLM, a zatem wymagają większej uwagi w ich użyciu. Z większą mocą wiąże się większa odpowiedzialność.
Wspominasz o ich zastosowaniu w ekologii, co również zauważyłem. Byłem w Kostaryce i widziałem jakieś badania w lesie deszczowym, gdzie niektórzy studenci wrzucili pewne dane do GAM i zaakceptowali jego szalone kompleksowe wygładzanie, ponieważ oprogramowanie tak mówi. To było dość przygnębiające, z wyjątkiem dowcipnego / godnego podziwu faktu, że rygorystycznie załączyli przypis, który dokumentował fakt, że użyli GAM i wysokiej jakości wygładzaczy, które z tego wynikły.
Nie musisz dokładnie rozumieć, jak działają GAM, aby z nich korzystać, ale naprawdę musisz pomyśleć o swoich danych, aktualnym problemie, automatycznym wyborze parametrów oprogramowania, takich jak płynniejsze zamówienia, twoje wybory (co wygładzasz, interakcje, jeśli wygładzenie jest uzasadnione itp.) oraz wiarygodność wyników.
Wykonuj wiele wykresów i patrz na swoje wygładzające krzywe. Czy wariują w obszarach z małą ilością danych? Co się stanie, gdy wybierzesz wygładzanie niskiego rzędu lub całkowicie usuniesz wygładzanie? Czy dla tej zmiennej poziom 7 jest płynniejszy, czy jest ona zbyt duża, pomimo zapewnień, że weryfikuje ona swoje wybory? Czy masz wystarczającą ilość danych? Czy jest wysokiej jakości czy głośny?
Lubię GAMS i uważam, że są niedoceniane za eksplorację danych. Są po prostu superelastyczne i jeśli pozwolisz sobie na naukę bez rygoru, zabiorą cię w głąb statystycznego pustkowia niż prostsze modele, takie jak GLM.
źródło
mgcv
jestem oszołomiony tym, jak dobrze radzę sobie z danymi. Staram się być oszczędny w stosunku do moich parametrów i sprawdzam, jak dobrze przewidywane wartości pasują do moich danych. twoje komentarze są dobrym przypomnieniem, aby być bardziej rygorystycznym - i być może w końcu zdobądź książkę Simona Wooda!Nie mam reputacji, aby po prostu dodać komentarz. Całkowicie zgadzam się z komentarzem Wayne'a: z większą mocą wiąże się większa odpowiedzialność . Gry mogą być bardzo elastyczne i często uzyskujemy / widzimy wygładzone kompleksy . Następnie zdecydowanie zalecam badaczom ograniczenie stopni swobody (liczby węzłów) funkcji gładkich i przetestowanie różnych struktur modelu (interakcje / brak interakcji itp.).
GAM można rozważyć pomiędzy podejściami opartymi na modelu (chociaż granica jest rozmyta, w tej grupie uwzględniałbym GLM) i podejściami opartymi na danych (np. Sztuczne sieci neuronowe lub losowe lasy, które zakładają w pełni oddziaływanie efektów zmiennych nieliniowych). Zgodnie z tym, nie do końca zgadzam się z Hastie i Tibshirani, ponieważ gry wciąż potrzebują pracy detektywistycznej (mam nadzieję, że nikt mnie nie zabije za to powiedzenie).
Z ekologicznego punktu widzenia zaleciłbym użycie oszustwa z pakietem R , aby uniknąć tych nierzetelnych zmiennych wygładzających kompleksów . Został opracowany przez Natalię Pya i Simona Wooda i pozwala ograniczyć gładkie krzywe do pożądanych kształtów (np. Jednomodalnych lub monotonicznych), nawet w przypadku interakcji dwukierunkowych. Myślę, że GLM staje się niewielką alternatywą po ograniczeniu kształtu płynnych funkcji, ale to tylko moja osobista opinia.
Pya, N., Wood, SN, 2015. Modele addytywne o ograniczonym kształcie. Stat. Comput. 25 (3), 543–559. 10.1007 / s11222-013-9448-7
źródło