Elastyczne i nieelastyczne modele uczenia maszynowego

10

Natknąłem się na proste pytanie o porównanie modeli elastycznych (tj. Splajnów) z modelami nieelastycznymi (np. Regresja liniowa) w różnych scenariuszach. Pytanie brzmi:

Ogólnie rzecz biorąc, czy oczekujemy, że działanie elastycznej metody uczenia statystycznego będzie lepsze lub gorsze niż metody nieelastycznej, gdy:

  1. Liczba predyktorów jest niezwykle duża, a liczba obserwacji jest niewielka? pn
  2. Wariacja składników błędu, tj. σ2)=Var(mi) , jest wyjątkowo wysoka?

Myślę, że dla (1), gdy n jest małe, modele nieelastyczne są lepsze (nie jestem pewien). W przypadku (2) nie wiem, który model jest (względnie) lepszy.

mały chłopiec
źródło
Błąd uogólnienia nie jest trywialny. Niestety zasady praktyczne nie pomagają w tym względzie.
Marc Claesen,
8
Wygląda na to, że pochodzi z Jamesa, Witten, Hastie, Tibshirani's Wprowadzenie do statystycznego uczenia się
Noel Evans
1. Elastyczna metoda przewyższyłaby niewielką liczbę obserwacji. 2. Elastyczne metody pasują do szumu pod względem błędów i zwiększają wariancję.
Zanark,

Odpowiedzi:

3

W tych 2 sytuacjach porównawczy model elastyczności i elastyczności zależy również od:

  • jest prawdziwą relacją y = f (x) bliską liniowej lub bardzo nieliniowej;
  • dostosowujesz / ograniczasz stopień elastyczności modelu „elastycznego” podczas jego dopasowywania.

Jeśli relacja jest zbliżona do liniowej i nie ogranicza się elastyczności, wówczas model liniowy powinien dawać lepszy błąd testowy w obu przypadkach, ponieważ model elastyczny może się w obu przypadkach przeregulować.

Możesz na to spojrzeć w ten sposób:

  • W obu przypadkach dane nie zawierają wystarczającej ilości informacji o prawdziwej relacji (w pierwszym przypadku relacja jest wielowymiarowa i nie ma wystarczającej ilości danych, w drugim przypadku jest uszkodzona przez hałas), ale
    • model liniowy zawiera pewne wcześniejsze informacje zewnętrzne o prawdziwej relacji (ogranicz klasę dopasowanych relacji do relacji liniowych) i
    • te wcześniejsze informacje okazują się słuszne (prawdziwa relacja jest bliska liniowej).
  • Podczas gdy model elastyczny nie zawiera wcześniejszych informacji (może zmieścić wszystko), więc pasuje do hałasu.

Jeśli jednak prawdziwa relacja jest bardzo nieliniowa, trudno powiedzieć, kto wygra (obie przegrają :)).

Jeśli dostroisz / ograniczysz stopień elastyczności i zrobisz to we właściwy sposób (powiedzmy przez krzyżową weryfikację), wówczas model elastyczny powinien wygrać we wszystkich przypadkach.

Kochede
źródło
4

Oczywiście zależy to od podstawowych danych, które należy zawsze zbadać, aby poznać niektóre z jego cech przed próbą dopasowania modelu, ale nauczyłem się ogólnych zasad:

  • Elastyczny model pozwala w pełni wykorzystać duży rozmiar próbki (duży n).
  • Aby znaleźć efekt nieliniowy, niezbędny będzie model elastyczny.
  • Elastyczny model spowoduje, że zmieścisz zbyt dużo hałasu w problemie (gdy wariancja warunków błędu jest wysoka).
Paul PM
źródło
1

Cóż, w drugiej części uważam, że bardziej elastyczny model będzie się mocno dopasowywał do modelu, a dane treningowe zawierają wysoki poziom hałasu, więc model elastyczny będzie również próbował nauczyć się tego hałasu i spowoduje więcej błędów testowych. Znam źródło tego pytania, ponieważ czytam również tę samą książkę :)

lovekesh
źródło
1

W pierwszej części oczekiwałbym, że nieelastyczny model będzie działał lepiej przy ograniczonej liczbie obserwacji. Gdy n jest bardzo małe, oba modele (zarówno elastyczny, jak i nieelastyczny) nie dają wystarczająco dobrych prognoz. Jednak elastyczny model miałby tendencję do przewyższania danych i działałby gorzej, jeśli chodzi o nowy zestaw testowy.

Idealnie byłoby zebrać więcej obserwacji, aby poprawić dopasowanie, ale jeśli tak nie jest, to użyłbym modelu nieelastycznego, próbując zminimalizować błąd testowy za pomocą nowego zestawu testowego.

użytkownik40935
źródło
0

fa

YYfa^fafa^fa^faY^=fa(X)YϵXϵfaϵ

ants.in.my.eyes
źródło
Nie rozumiem tego
Michael R. Chernick
0

Dla każdej części od (a) do (d) wskazać, czy lub ii. jest poprawny i wyjaśnij swoją odpowiedź. Ogólnie rzecz biorąc, czy oczekujemy, że działanie elastycznej metody uczenia statystycznego będzie lepsze lub gorsze niż metody nieelastycznej, gdy:

Wielkość próby n jest bardzo duża, a liczba predyktorów p jest niewielka?

Lepszy. Elastyczna metoda będzie pasować do danych bliżej, a przy dużej wielkości próby będzie skuteczniejsza niż podejście nieelastyczne.

Liczba predyktorów p jest niezwykle duża, a liczba obserwacji n jest niewielka?

Gorzej. Elastyczna metoda przewyższyłaby niewielką liczbę obserwacji.

Związek między predyktorami a odpowiedzią jest wysoce nieliniowy?

Lepszy. Przy większej liczbie stopni swobody metoda elastyczna byłaby lepsza niż metoda nieelastyczna.

Wariacja składników błędu, tj. Σ2 = Var (ε), jest wyjątkowo wysoka?

Gorzej. Elastyczna metoda pasowałaby do szumu pod względem błędów i zwiększyłaby wariancję.

Zabrano stąd .

Harvey
źródło