Interpretacja geometryczna karanej regresji liniowej

26

Wiem, że regresję liniową można uznać za „linię, która jest pionowo najbliższa wszystkich punktów” :

wprowadź opis zdjęcia tutaj

Jest jednak inny sposób, aby to zobaczyć, wizualizując przestrzeń kolumny, jako „rzut na przestrzeń rozciągniętą przez kolumny macierzy współczynników” :

wprowadź opis zdjęcia tutaj

Moje pytanie brzmi: co się dzieje w tych dwóch interpretacjach, gdy stosujemy karaną regresję liniową, taką jak regresja kalenicy i LASSO ? Co dzieje się z linią w pierwszej interpretacji? A co dzieje się z projekcją w drugiej interpretacji?

AKTUALIZACJA: @JohnSmith w komentarzach przywołał fakt, że kara występuje w przestrzeni współczynników. Czy istnieje także interpretacja w tej przestrzeni?

Lucas Reis
źródło
1
Nie jestem pewien, czy można zaproponować taką interpretację. Po prostu dlatego, że podałeś obrazy w oryginalnej przestrzeni funkcji i odpowiedzi. Regresja karana obejmuje przestrzeń współczynników, która jest bardzo różna.
Dmitrij Łaptiew
„linia pionowo najbliższa wszystkich punktów”? Zwykle bierze się sumę kwadratów - patrz ładne zdjęcie na Wikipedii Współczynnik_determinacji . Suma odległości pionowych jest normą L1, która jest mniej wrażliwa na wartości odstające, ale znacznie mniej powszechna.
denis

Odpowiedzi:

21

Przepraszam za moje umiejętności malarskie, postaram się dać ci następującą intuicję.

Niech będzie funkcją celu (na przykład MSE w przypadku regresji). Wyobraźmy sobie wykres konturowy tej funkcji na czerwono (oczywiście malujemy ją w przestrzeni β , tutaj dla uproszczenia β 1 i β 2 ).fa(β)ββ1β2)

Ta funkcja ma minimum pośrodku czerwonych kółek. A to minimum daje nam rozwiązanie bez kar.

sol(β)sol(β)=λ(|β1|+|β2)|)sol(β)=λ(β12)+β2)2))λλsol(x)

fa(β)+sol(β)

Regresja LASSO i Ridge

Im większa kara, tym „węższe” niebieskie kontury, które otrzymujemy, a następnie wykresy spotykają się w punkcie bliższym zeru. I odwrotnie: im mniejsza kara, kontury rozszerzają się, a przecięcie niebieskich i czerwonych wykresów zbliża się do środka czerwonego koła (rozwiązanie bez kary).

β1=0β2)=0

0

Mam nadzieję, że to wyjaśni intuicję dotyczącą działania regresji karnej w przestrzeni parametrów.

Dmitrij Łaptiew
źródło
Myślę, że rozpoczęcie od klasycznego obrazu, tak jak zrobiłeś, to dobry początek. Aby naprawdę to zrozumieć, myślę, że dobrze byłoby opisać, w jaki sposób kontury odnoszą się do problemu. W szczególności wiemy w obu przypadkach, że im mniejsza jest nasza kara, tym bardziej zbliżamy się do rozwiązania OLS, a im jest on większy, tym bardziej zbliżamy się do modelu czystego przechwytywania. Pytanie, które należy zadać, brzmi: w jaki sposób przejawia się to w twojej postaci?
kardynał
Nawiasem mówiąc, twoje umiejętności malarskie wydają się w porządku.
kardynał
Dzięki za komentarz! Tutaj wszystko jest intuicyjnie proste: im większa kara, tym „wąskie” niebieskie kontury, które otrzymujemy (i wtedy punkt, który spotykają dwie fabuły zbliża się do zera). I odwrotnie: im mniejsza kara: im bliżej środka czerwonego koła spotka się fabuła (OLS).
Dmitrij Łaptiew
2
sol(x)λ
1
Dzięki za jasną ilustrację. Czytałem gdzie indziej, że minimalna suma celów występuje tam, gdzie są one styczne do siebie. Rozumiem, że jeśli f (\ beta) '= -g (\ beta)' oznaczałoby to, że pochodna sumy wynosi zero, co jest wymogiem dla ekstremum. Czy to właśnie rozumie się przez to, gdy „dwa kontury się spotykają”?
odedbd
3

Intuicja, którą mam, jest następująca: w przypadku najmniejszych kwadratów macierz kapelusza jest rzutem prostopadłym, a zatem idempotentnym. W ukaranym przypadku matryca kapelusza nie jest już idempotentna. W rzeczywistości zastosowanie go nieskończenie wiele razy spowoduje zmniejszenie współczynników do źródła. Z drugiej strony współczynniki wciąż muszą leżeć w zakresie predyktorów, więc nadal jest to projekcja, choć nie ortogonalna. Wielkość czynnika karającego i rodzaj normy kontrolują odległość i kierunek kurczenia się w kierunku źródła.

JohnRos
źródło
1
Nie rozumiem, dlaczego nie jest idempotentny: jeśli rzutuję wektor w przestrzeń (nawet jeśli nie jest to rzut ortogonalny) i umieszczam ograniczenie w współczynnikach, dlaczego nowa projekcja tego rzutowanego wektora byłaby inna niż poprzednia jeden?
Lucas Reis,
1
Intuicyjnie: powiedz, że po raz drugi minimalizujesz karaną sumę kwadratów. Suma kwadratów przy drugiej minimalizacji jest mniejsza niż suma kwadratów pierwszej minimalizacji. Względne znaczenie normy współczynników podlegających sankcji wzrośnie, tzn. Można jeszcze więcej zyskać, jeszcze bardziej zmniejszając współczynniki. Regresja grzbietu jest dobrym przykładem, w którym masz ładną zamkniętą formę matrycy kapelusza i możesz bezpośrednio sprawdzić, czy jest idempotentna.
JohnRos