Splajny w GLM i GAM

12

Czy to źle, że splajny są dostępne tylko w modelach GAM, a nie w modelach GLM? Słyszałem to jakiś czas temu i zastanawiam się, czy to tylko nieporozumienie, czy też ma w tym trochę prawdy. Oto ilustracja: http://www.stats.uwo.ca/faculty/bellhouse/glm%20and%20gam.pdf

Hej, Jane
źródło

Odpowiedzi:

18

Mylisz się. Splajny mają liniową reprezentację przy użyciu pochodnych zmiennych towarzyszących. Na przykład trend kwadratowy jest nieliniowy, ale można go modelować w modelu liniowym, przyjmując: , zatem i jego kwadrat są wprowadzane w model liniowy. Xmi[Y|X]=β0+β1X+β2)X2)X

Splajn może być po prostu postrzegany jako wyrafinowana parametryzacja jednego lub więcej ciągłych lub pseudo-ciągłych zmiennych towarzyszących.

AdamO
źródło
Dziękuje za odpowiadanie! Mówiąc, że się mylę, masz na myśli, że splajny mogą być używane w GLM, prawda? Nie do końca zrozumiałem.
HeyJane,
Tak, absolutnie. W R zaimportuj pakiet splines, a uruchomienie bs(...)pozwala utworzyć liniową reprezentację splajnu z określonym przez użytkownika stopniem wielomianu i punktami węzła.
AdamO,
7
Dużo pisałem o tym pytaniu tutaj: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury
Dziękuję wam obojgu! Widzę to teraz, AdamO! Świetna strona, Matthew, przeczytam to wszystko! :)
HeyJane,
12

Odpowiedź @ AdamO jest prawidłowa, ponieważ dopasowania oparte na splajnie można z pewnością wykonać w standardowym frameworku GLM. Nie oznacza to jednak, że GAM to tylko specjalny przypadek GLM! Chociaż istnieje szereg modeli, które są dokładnie identyczne i mogą być oprawiane zarówno jako GAM, jak i GLM z rozszerzeniem splajnu współzmiennych, istnieją pewne modele GAM, które nie są dostępne w standardowym frameworku GLM.

Na przykład można dopasować model GAM za pomocą wygładzającego splajnu dla każdej z zmiennych towarzyszących. Zasadniczo skutkuje to spline rozszerzeniem zmiennych, ale z karą za drugie pochodne. Powoduje to, że model jest nieco poza standardową strukturą GLM.

Ponadto jest często uważany za standardową procedurę i jest wbudowany w większość bibliotek GAM, aby dopasować parametry wygładzania (tj. Stopnie swobody splajnu itp.) Poprzez optymalizację różnych miar błędów poza próbką, podczas gdy formuła GLM zazwyczaj uwzględnia przestrzeń współzmienną naprawiony.

Cliff AB
źródło
Chciałbym móc cię głosować, ale nie mam wystarczającej liczby punktów. Dziękujemy za pomoc. Nie jestem pewien, czy rozumiem twój drugi akapit: mówisz, że wygładzanie splajnów można dopasować tylko do GAM? Czy możesz wyjaśnić, jaka dokładnie jest różnica między regularnym splajnem sześciennym a wygładzającym splajnem sześciennym? Rozumiem, że to jest wiele pytań.
HeyJane,
@HeyJane: jeśli spojrzysz na stronę wikipedii, zauważysz, że splajny są karane przez ich drugą pochodną. Pozwala to kontrolować gładkość za pomocą ciągłej kary, a nie całkowitych stopni swobody. Jako taki, jest to problem karalny maksymalnego prawdopodobieństwa, a nie standardowy problem maksymalnego prawdopodobieństwa. Oznacza to, że nie można dopasować ich bezpośrednio glmfunkcją R , w przeciwieństwie do używania standardowych splajnów sześciennych z glm.
Cliff AB,
2
Aha! Rozumiem! Więc zamiast zwykłego splajnu sześciennego, mówiącego, że chcemy tylko, aby drugie pochodne były równe w węzłach, chcemy nałożyć pewną właściwość na drugą pochodną, ​​tj. Drugą pochodną, ​​która nie jest zbyt wysoka, stąd termin kary?
HeyJane,
@HeyJane: tak, powiedziałbym, że to dobre podsumowanie.
Cliff AB,