Dlaczego w regresji liniowej regularyzacja również karze wartości parametrów?

Obecnie uczę się regresji grzbietu i byłem trochę zdezorientowany co do karania bardziej złożonych modeli (lub definicji bardziej złożonego modelu).

Z tego, co rozumiem, złożoność modelu niekoniecznie koreluje z porządkiem wielomianowym. Zatem: jest bardziej złożonym modelem niż:

2) + 3) + 4 x^{2)} + 5 x^{3)} + 6 x^{4}

$2 + 3+ 4x^2 + 5x^3 + 6x^4$

5 x^{5}

$5x^5$

Wiem, że celem regularności jest utrzymanie złożoności modelu na niskim poziomie, więc powiedzmy na przykład, że mamy wielomian 5. rzędu

fa (x; w) = w_{0} + w_{1} x + w_{2)} x^{2)} + w_{3)} x^{3)} + w_{4} x^{4} + w_{5} x^{5}

$f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5$

Im więcej parametrów, które są 0, tym lepiej.

Ale nie rozumiem, że jeśli wielomian tego samego rzędu byłby mniej karany za niższe wartości parametrów? Dlaczego więc:

2) + 5 x + x^{3)}

$2 + 5x + x^3$ będzie mniej złożonym modelem niż

433 + 342 x + 323 x^{3)}

$433+ 342x + 323x^3$ oba są tego samego rzędu wielomianowego, a wartości parametrów po prostu zależą od danych.

Dziękuję Ci!

regression regularization hyperparameter Physco111
źródło

Odpowiedzi:

wartości parametrów po prostu zależą od danych

To jest kluczowa część twojego pytania. Tutaj jesteś zdezorientowany.

Tak, wartości parametrów zależą od danych. Ale dane są ustalane, gdy dopasowujemy model. Innymi słowy, dopasowujemy model zależny od obserwacji . Nie ma sensu porównywanie złożoności różnych modeli dopasowanych do różnych zestawów danych .

A w kontekście ustalonego zestawu danych model

2) + 5 x + x^{3)}

$2 + 5x + x^3$

jest rzeczywiście bliższy najprostszemu możliwemu modelowi, mianowicie modelowi płaskiego zera, niż

433 + 342 x + 323 x^{3)},

$433+ 342x + 323x^3,$

i dzieje się tak niezależnie od skali twoich obserwacji.

Nawiasem mówiąc, przechwytywanie ( i w twoim przykładzie) często nie jest karane, np. W większości sformułowań Lasso, ponieważ zazwyczaj jesteśmy dobrzy, pozwalając na swobodne zmienianie, aby uchwycić ogólną średnią z obserwacji. Innymi słowy, zmniejszamy model do średniej z obserwacji, a nie do pełnego modelu zerowego (gdzie zero często bywało dowolne). W tym sensie model płaski i płaski można uznać za równie złożony. $2$ $433$ $2$ $433$

Stephan Kolassa
źródło

Niższe współczynniki jasności są dalej od płaskiego zera niż wyższe współczynniki? Czy to literówka, czy też nie rozumiem, dlaczego model bardziej oddalony od stałej nie jest karany tak bardzo, jak model bliższy stałej?

Przepraszam, to rzeczywiście literówka. Pozwól mi edytować. Dzięki za zwrócenie na to uwagi!

Stephan Kolassa