Pracuję nad modelem kosztów predykcyjnych, w którym wiek pacjenta (liczba całkowita mierzona w latach) jest jedną ze zmiennych predykcyjnych. Widoczny jest silny nieliniowy związek między wiekiem a ryzykiem hospitalizacji:
Rozważam spline wygładzenie regresji wygładzającej dla wieku pacjenta. Według The Elements of Statistics Learning (Hastie i in., 2009, s. 151) optymalne rozmieszczenie węzłów to jeden węzeł na unikalną wartość wieku członka.
Biorąc pod uwagę, że zachowuję wiek jako liczbę całkowitą, czy karany wygładzony splajn jest równoważny z uruchomieniem regresji grzbietu lub lassa ze 101 odrębnymi zmiennymi wskaźnika wieku, po jednej dla wartości wieku znalezionej w zbiorze danych (minus jedna dla odniesienia)? Następnie unika się nadmiernej parametryzacji, ponieważ współczynniki na każdym wskaźniku wieku są zmniejszane do zera.
Odpowiedzi:
Świetne pytanie. Uważam, że odpowiedź na pytanie, które zadajesz - „jest karanym wygładzeniem splajnu równoważnym z uruchomieniem regresji grzbietu lub lasso” - brzmi „tak”. Istnieje wiele źródeł, które mogą zawierać komentarze i perspektywy. Jednym z miejsc , od którego warto zacząć, jest ten link PDF . Jak zauważono w notatkach:
„Dopasowanie modelu wygładzającego splajnu polega na wykonaniu pewnej formy regresji grzbietu jako podstawy dla naturalnych splajnów”.
Jeśli szukasz ogólnych lektur, możesz przeczytać ten znakomity artykuł na temat Penalty Regresions: The Bridge vs. the Lasso . Może to pomóc odpowiedzieć na pytanie, czy ukarany wygładzony splajn jest dokładnie równoważny - chociaż zapewnia bardziej ogólną perspektywę. Uważam to za interesujące, ponieważ porównywali ze sobą różne techniki, w szczególności nowy model regresji pomostowej z LASSO, a także regresję Ridge'a.
Innym bardziej taktycznym miejscem do sprawdzenia mogą być notatki pakietu dla pakietu smooth.spline w R. Zauważ, że wskazują one na związek tutaj, zauważając, że: „z tymi definicjami, w których reprezentację podstawy splajnu B można określić jako f = X c (tj. C jest wektorem współczynników splajnu), karane prawdopodobieństwo logarytmu wynosi , a zatem jest rozwiązaniem (regresji grzbietu) . "L = ( y- f)T.W.( y- f) + λdoT.Σ c do (XT.W.X+ λ Σ ) c =XT.W.y
źródło
Nie jestem pewien, czy naprawdę chcesz tak wielu węzłów, biorąc pod uwagę fabułę.
Wygląda na to, że możesz mieć małe próbki w określonym wieku; pik przy 74 i wartości 0 przy dolnej i górnej granicy nie mają większego sensu.
Biorąc pod uwagę autorytet źródła, które odwiedzasz, być może chcesz zamiast tego ograniczonych splajnów sześciennych ze znacznie mniejszą liczbą węzłów?
źródło
Spóźniłem się do tej dyskusji, ale spójrz na tabelę danych ... ta widoczna dynamika w danych powyżej 70 roku życia nie jest prawdziwym odzwierciedleniem ryzyka związanego z wiekiem, jest to objaw rzadkich danych i pewnej losowości.
Nie chciałbyś modelować tego za pomocą jednego węzła rocznie, co z pewnością doprowadziłoby do przeregulowania hałasu.
Ponadto, jeśli spojrzysz na kobietę lub mężczyznę, znajdziesz zupełnie inny wzór. Większość szczytu w przedziale wiekowym 15-30 lat będzie położna.
źródło