Wybór węzłów w splajnie wygładzającym regresję odpowiadającym k zmiennych kategorialnych?

9

Pracuję nad modelem kosztów predykcyjnych, w którym wiek pacjenta (liczba całkowita mierzona w latach) jest jedną ze zmiennych predykcyjnych. Widoczny jest silny nieliniowy związek między wiekiem a ryzykiem hospitalizacji:

wprowadź opis zdjęcia tutaj

Rozważam spline wygładzenie regresji wygładzającej dla wieku pacjenta. Według The Elements of Statistics Learning (Hastie i in., 2009, s. 151) optymalne rozmieszczenie węzłów to jeden węzeł na unikalną wartość wieku członka.

Biorąc pod uwagę, że zachowuję wiek jako liczbę całkowitą, czy karany wygładzony splajn jest równoważny z uruchomieniem regresji grzbietu lub lassa ze 101 odrębnymi zmiennymi wskaźnika wieku, po jednej dla wartości wieku znalezionej w zbiorze danych (minus jedna dla odniesienia)? Następnie unika się nadmiernej parametryzacji, ponieważ współczynniki na każdym wskaźniku wieku są zmniejszane do zera.

RobertF
źródło
Twoja propozycja wskaźników wieku + skurczu jest w zasadzie tym samym, co wygładzenie splajnu rzędu 0.
Glen_b
Byłoby pomocne, gdybyś określił, jakie są inne zmienne predykcyjne, jak sugeruje jedna z odpowiedzi, jeśli kontrolujesz z powodu przyjęcia, możesz mieć zupełnie inny wykres.
seanv507

Odpowiedzi:

11

Świetne pytanie. Uważam, że odpowiedź na pytanie, które zadajesz - „jest karanym wygładzeniem splajnu równoważnym z uruchomieniem regresji grzbietu lub lasso” - brzmi „tak”. Istnieje wiele źródeł, które mogą zawierać komentarze i perspektywy. Jednym z miejsc , od którego warto zacząć, jest ten link PDF . Jak zauważono w notatkach:

„Dopasowanie modelu wygładzającego splajnu polega na wykonaniu pewnej formy regresji grzbietu jako podstawy dla naturalnych splajnów”.

Jeśli szukasz ogólnych lektur, możesz przeczytać ten znakomity artykuł na temat Penalty Regresions: The Bridge vs. the Lasso . Może to pomóc odpowiedzieć na pytanie, czy ukarany wygładzony splajn jest dokładnie równoważny - chociaż zapewnia bardziej ogólną perspektywę. Uważam to za interesujące, ponieważ porównywali ze sobą różne techniki, w szczególności nowy model regresji pomostowej z LASSO, a także regresję Ridge'a.

Innym bardziej taktycznym miejscem do sprawdzenia mogą być notatki pakietu dla pakietu smooth.spline w R. Zauważ, że wskazują one na związek tutaj, zauważając, że: „z tymi definicjami, w których reprezentację podstawy splajnu B można określić jako f = X c (tj. C jest wektorem współczynników splajnu), karane prawdopodobieństwo logarytmu wynosi , a zatem jest rozwiązaniem (regresji grzbietu) . "L.=(y-fa)T.W.(y-fa)+λdoT.Σdodo(XT.W.X+λΣ)do=XT.W.y

Nathaniel Payne
źródło
Bez obaw @RobertF. Dobrego popołudnia.
Nathaniel Payne
1
Link do łącza PDF w ust. 1 jest zerwany.
Jthorpe,
3

Nie jestem pewien, czy naprawdę chcesz tak wielu węzłów, biorąc pod uwagę fabułę.

Wygląda na to, że możesz mieć małe próbki w określonym wieku; pik przy 74 i wartości 0 przy dolnej i górnej granicy nie mają większego sensu.

Biorąc pod uwagę autorytet źródła, które odwiedzasz, być może chcesz zamiast tego ograniczonych splajnów sześciennych ze znacznie mniejszą liczbą węzłów?

Peter Flom
źródło
1
Dzięki Peter - tak # obs jest rzadkie dla bardzo młodych i starych. Używanie tak wielu węzłów wydaje się sprzeczne z intuicją, podczas pierwszego czytania w języku ESL dwukrotnie pomyślałem, że umieszczenie węzła przy każdej obserwacji minimalizuje karaną resztkową sumę kwadratów. Podejrzewam, że dowodem jest to, czy ograniczony splajn sześcienny czy spline wygładzony penalizacją działa lepiej w przewidywaniu mojej zmiennej odpowiedzi w zestawie danych testowych.
RobertF
0

Spóźniłem się do tej dyskusji, ale spójrz na tabelę danych ... ta widoczna dynamika w danych powyżej 70 roku życia nie jest prawdziwym odzwierciedleniem ryzyka związanego z wiekiem, jest to objaw rzadkich danych i pewnej losowości.

Nie chciałbyś modelować tego za pomocą jednego węzła rocznie, co z pewnością doprowadziłoby do przeregulowania hałasu.

Ponadto, jeśli spojrzysz na kobietę lub mężczyznę, znajdziesz zupełnie inny wzór. Większość szczytu w przedziale wiekowym 15-30 lat będzie położna.

Doug Dame
źródło
Cześć Doug - Zgadza się, zdecydowanie mniej jest obserwacji w wieku powyżej 70 lat. Karany model splajnu na jeden węzeł prawdopodobnie obniżyłby współczynniki 70+ do zera. Celem byłoby zastąpienie ręcznego wyboru umieszczania węzłów zautomatyzowanym procesem, który najlepiej pasuje do nieliniowej zależności między wiekiem a dopuszczeniem IP, szczególnie przydatny w modelu predykcyjnym.
RobertF