Nie mam na myśli konkretnego przykładu ani zadania. Po prostu jestem nowy w używaniu splajnów b i chciałem lepiej zrozumieć tę funkcję w kontekście regresji.
Załóżmy, że chcemy ocenić związek między zmienną odpowiedzi a niektórymi predyktorami . Predyktory obejmują niektóre zmienne numeryczne, a także niektóre jakościowe.
Powiedzmy, że po dopasowaniu modelu regresji znacząca jest jedna ze zmiennych numerycznych, np. . Logicznym krokiem jest następnie ocena, czy wielomiany wyższego rzędu, np .: x_1 ^ 2 i x_1 ^ 3 są wymagane, aby odpowiednio wyjaśnić związek bez nadmiernego dopasowania.
Moje pytania to:
W którym momencie wybrałeś między splajnami b lub prostym wielomianem wyższego rzędu. np. w R:
y ~ poly(x1,3) + x2 + x3
vs
y ~ bs(x1,3) + x2 + x3
W jaki sposób możesz użyć wykresów, aby poinformować o swoim wyborze między tymi dwoma i co się stanie, jeśli nie jest to tak naprawdę jasne z wykresów (np. Z powodu ogromnej ilości punktów danych)
Jak oceniłbyś dwustronne warunki interakcji między i powiedzmy
Jak powyższe zmiany dotyczą różnych typów modeli
Czy zastanowiłbyś się, czy nigdy nie stosować wielomianów wysokiego rzędu i zawsze pasujących do B-splajnów i karać za wysoką elastyczność?
źródło
mgcv
, dlaczego nie zastosować (uogólnionych) modeli addytywnych. Wybór gładkości jest automatyczny, a metody wnioskowania są dobrze rozwinięte.Odpowiedzi:
Zwykle rozważałbym raczej splajny, a nie wielomiany. Wielomiany nie mogą modelować progów i często są niepożądane globalnie, tj. Obserwacje w jednym zakresie predyktora mają silny wpływ na to, co robi model w innym zakresie ( Magee, 1998, The American Statistician i Regres Modeling Regres Franka Harrella ). I oczywiście ograniczone splajny, które są liniowe poza skrajnymi węzłami, są lepsze do ekstrapolacji, a nawet intrapolacji przy ekstremalnych wartościach predyktorów.
Jednym z przypadków, w których warto rozważyć wielomian, jest to, że ważne jest wyjaśnienie swojego modelu nietechnicznej publiczności. Ludzie rozumieją wielomiany lepiej niż splajny. (Edycja: Matthew Drury wskazuje, że ludzie mogą myśleć, że rozumieją wielomiany lepiej niż splajny. Nie będę popierać tego pytania).
Wykresy często nie są zbyt przydatne w podejmowaniu decyzji między różnymi sposobami radzenia sobie z nieliniowością. Lepiej przeprowadzić weryfikację krzyżową. Pomoże to również ocenić interakcje lub znaleźć dobrą karę.
Wreszcie moja odpowiedź nie zmienia się w zależności od rodzaju modelu, ponieważ powyższe punkty obowiązują dla dowolnego modelu statystycznego lub modelu ML.
źródło
W sekcji 7.4.5 „Elementów uczenia statystycznego” powiedziano, że splajny często dają lepsze wyniki niż regresja wielomianowa, ponieważ:
źródło