B-splajny VS wielomiany wysokiego rzędu w regresji

10

Nie mam na myśli konkretnego przykładu ani zadania. Po prostu jestem nowy w używaniu splajnów b i chciałem lepiej zrozumieć tę funkcję w kontekście regresji.

Załóżmy, że chcemy ocenić związek między zmienną odpowiedzi a niektórymi predyktorami . Predyktory obejmują niektóre zmienne numeryczne, a także niektóre jakościowe.yx1,x2),...,xp

Powiedzmy, że po dopasowaniu modelu regresji znacząca jest jedna ze zmiennych numerycznych, np. . Logicznym krokiem jest następnie ocena, czy wielomiany wyższego rzędu, np .: x_1 ^ 2 i x_1 ^ 3 są wymagane, aby odpowiednio wyjaśnić związek bez nadmiernego dopasowania.x1x12)x13)

Moje pytania to:

  1. W którym momencie wybrałeś między splajnami b lub prostym wielomianem wyższego rzędu. np. w R:

    y ~ poly(x1,3) + x2 + x3
    

    vs

     y ~ bs(x1,3) + x2 + x3
    
  2. W jaki sposób możesz użyć wykresów, aby poinformować o swoim wyborze między tymi dwoma i co się stanie, jeśli nie jest to tak naprawdę jasne z wykresów (np. Z powodu ogromnej ilości punktów danych)

  3. Jak oceniłbyś dwustronne warunki interakcji między x2) i powiedzmy x3)

  4. Jak powyższe zmiany dotyczą różnych typów modeli

  5. Czy zastanowiłbyś się, czy nigdy nie stosować wielomianów wysokiego rzędu i zawsze pasujących do B-splajnów i karać za wysoką elastyczność?

Vasilis Vasileiou
źródło
9
Pisałem o tym obszernie tutaj: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury
Biorąc pod uwagę stopień zaawansowania mgcv, dlaczego nie zastosować (uogólnionych) modeli addytywnych. Wybór gładkości jest automatyczny, a metody wnioskowania są dobrze rozwinięte.
generic_user

Odpowiedzi:

17

Zwykle rozważałbym raczej splajny, a nie wielomiany. Wielomiany nie mogą modelować progów i często są niepożądane globalnie, tj. Obserwacje w jednym zakresie predyktora mają silny wpływ na to, co robi model w innym zakresie ( Magee, 1998, The American Statistician i Regres Modeling Regres Franka Harrella ). I oczywiście ograniczone splajny, które są liniowe poza skrajnymi węzłami, są lepsze do ekstrapolacji, a nawet intrapolacji przy ekstremalnych wartościach predyktorów.

Jednym z przypadków, w których warto rozważyć wielomian, jest to, że ważne jest wyjaśnienie swojego modelu nietechnicznej publiczności. Ludzie rozumieją wielomiany lepiej niż splajny. (Edycja: Matthew Drury wskazuje, że ludzie mogą myśleć, że rozumieją wielomiany lepiej niż splajny. Nie będę popierać tego pytania).

Wykresy często nie są zbyt przydatne w podejmowaniu decyzji między różnymi sposobami radzenia sobie z nieliniowością. Lepiej przeprowadzić weryfikację krzyżową. Pomoże to również ocenić interakcje lub znaleźć dobrą karę.

Wreszcie moja odpowiedź nie zmienia się w zależności od rodzaju modelu, ponieważ powyższe punkty obowiązują dla dowolnego modelu statystycznego lub modelu ML.

Stephan Kolassa
źródło
Bardzo dziękuję za odpowiedź, była bardzo pomocna. Krótkie pytanie uzupełniające. Czy istnieje „najnowocześniejszy” sposób na znalezienie węzłów? Myślę, że najlepiej 1) Użyj intuicji, np .: jeśli zmienna reprezentuje czas w miesiącach, to używaj węzłów co 6 lub 12? 2) wprowadzić sekwencję, która przechodzi przez zakres zmiennej i zastosować walidację krzyżową, aby znaleźć optymalne węzły?
Vasilis Vasileiou
8
Ludzie myślą, że rozumieją wielomiany lepiej niż splajny.
Matthew Drury
3
Odnośnie umieszczania węzłów: walidacja krzyżowa jest jednym podejściem, ale szczerze mówiąc, myślę, że wyniki będą dość niewrażliwe na określenie umiejscowienia, pod warunkiem, że węzły są rozmieszczone rozsądnie i nie skupiają się zbyt mocno. Frank Harrell ma tabelę z heurystycznym rozmieszczeniem węzłów pod względem kwantyli rozkładu predyktora w strategiach modelowania regresji .
Stephan Kolassa
1
Chociaż twoja odpowiedź jest w tym kontekście całkowicie poprawna, twoje stwierdzenie jest bardzo mocne, biorąc pod uwagę, że wiele procesów w świecie rzeczywistym można lepiej modelować za pomocą wielomianów.
koalo
6

W sekcji 7.4.5 „Elementów uczenia statystycznego” powiedziano, że splajny często dają lepsze wyniki niż regresja wielomianowa, ponieważ:

  • Daje elastyczne dopasowanie;
  • Daje bardziej stabilne szacunki;
  • Wielomiany mogą generować niepożądane wyniki na granicach.
Bruna w
źródło