Dlaczego regresja kalenicy nazywa się „kalenicą”, dlaczego jest potrzebna i co dzieje się, gdy przechodzi w nieskończoność?

71

Szacunkowy współczynnik regresji grzbietu to wartości, które minimalizująβ^R

RSS+λj=1pβj2.

Moje pytania to:

  1. Jeśli , to widzimy, że powyższe wyrażenie redukuje się do zwykłego RSS. Co jeśli ? Nie rozumiem wyjaśnienia podręcznika dotyczącego zachowania współczynników.λ=0λ

  2. Dlaczego, aby pomóc w zrozumieniu koncepcji danego terminu, nazywa się regresją RIDGE? (Dlaczego grzbiet?) A co mogło być nie tak ze zwykłą / powszechną regresją, że istnieje potrzeba wprowadzenia nowej koncepcji zwanej regresją grzbietu?

Twoje spostrzeżenia byłyby świetne.

cgo
źródło

Odpowiedzi:

89

Ponieważ prosisz o wgląd , zamierzam raczej dość intuicyjnie, niż matematycznie:

  1. Zgodnie z pojęciami zawartymi w mojej odpowiedzi tutaj możemy sformułować regresję grzbietu jako regresję z danymi pozorowanymi, dodając obserwacje (w twoim sformułowaniu), gdzie , i dla . Jeśli napiszesz nowy RSS dla tego rozszerzonego zestawu danych, zobaczysz dodatkowe obserwacje, z których każdy dodaje wyraz formy , więc nowy RSS to oryginalny - a minimalizacja RSS w tym nowym, rozszerzonym zestawie danych jest tym samym, co minimalizacja kryterium regresji grzbietu.pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    Co możemy tu zobaczyć? Wraz ze wzrostem , każde dodatkowe rzuty mają jeden składnik, który rośnie, a więc wpływ tych punktów również wzrasta. Ciągną dopasowaną hiperpłaszczyznę do siebie. Następnie, gdy i odpowiadające jej składowe idą w nieskończoność, wszystkie zaangażowane współczynniki „spłaszczają się” do .λxλx0

    Oznacza to, że jak , kara będzie dominować w minimalizacji, więc s spadnie do zera. Jeśli punkt przecięcia nie jest karany (zwykły przypadek), model coraz bardziej kurczy się w kierunku średniej odpowiedzi.λβ

  2. Wyjaśnię intuicyjnie, dlaczego najpierw mówimy o grzebieniach (co również sugeruje, dlaczego jest to potrzebne), a następnie zajmę się krótką historią. Pierwszy jest dostosowany z mojej odpowiedzi tutaj :

    Jeśli występuje wielokoliniowość, pojawia się „grzbiet” w funkcji wiarygodności (prawdopodobieństwo jest funkcją ). To z kolei daje długą „dolinę” w RSS (od RSS = ).β2logL

    Regresja grzbietu „naprawia” grzbiet - dodaje karę, która zmienia grzbiet w ładny szczyt w przestrzeni prawdopodobieństwa, równoważnie miłe obniżenie w kryterium, które minimalizujemy:

    grzbiet w LS zmienia się w szczyt regresji grzbietu
    [ Jaśniejszy obraz ]

    Rzeczywista historia tego imienia jest nieco bardziej skomplikowana. W 1959 r. AE Hoerl [1] wprowadził analizę grzbietu do metodologii powierzchni odpowiedzi i bardzo szybko [2] przystosował się do radzenia sobie z wielokoliniowością w regresji („regresja grzbietu”). Zobacz na przykład dyskusję RW Hoerla w [3], w której opisano wykorzystanie przez Hoerla (AE nie RW) wykresów konturowych powierzchni odpowiedzi * w określeniu, gdzie udać się w celu znalezienia lokalnych optymów (gdzie jeden kieruje się w górę grzbiet'). W przypadku problemów uwarunkowanych pojawia się problem bardzo długiego grzbietu, a spostrzeżenia i metodologia z analizy grzbietu są dostosowane do pokrewnego problemu z prawdopodobieństwem / RSS w regresji, powodując regresję grzbietu.

* przykłady wykresów konturowych powierzchni odpowiedzi (w przypadku odpowiedzi kwadratowej) można zobaczyć tutaj (ryc. 3.9-3.12).

Oznacza to, że „grzbiet” w rzeczywistości odnosi się do charakterystyki funkcji, którą próbowaliśmy zoptymalizować, a nie do dodania „grzbietu” (+ ve diagonalnej) do macierzy (więc podczas gdy regresja grzbietu dodaje się do przekątnej, nie dlatego nazywamy to regresją grzbietową.XTX

Aby uzyskać dodatkowe informacje na temat potrzeby regresji grzbietu, zobacz pierwszy link w punkcie 2 listy powyżej.


Bibliografia:

[1]: Hoerl, AE (1959). Optymalne rozwiązanie wielu równań zmiennych. Postęp inżynierii chemicznej , 55 (11) 69–78.

[2]: Hoerl, AE (1962). Zastosowania analizy grzbietu do problemów regresji. Postęp inżynierii chemicznej , 58 (3) 54–59.

[3] Hoerl, RW (1985). Analiza Ridge 25 lat później. American Statistician , 39 (3), 186–192

Glen_b
źródło
2
To jest bardzo pomocne. Tak, kiedy prosiłem o wgląd, szukałem intuicji. Oczywiście matematyka jest ważna, ale szukałem również pojęciowych wyjaśnień, ponieważ są pewne części, kiedy matematyka była tuż poza mną. Dzięki jeszcze raz.
cgo
Dlaczego masz słowo „ważony” w punkcie 1?
ameba
1
To dobre pytanie; nie ma potrzeby jego ważenia, chyba że pierwotna regresja była ważona. Usunąłem przymiotnik. Możliwe jest również zapisanie go jako regresji ważonej (z którą, jeśli już wykonujesz regresję ważoną, może być nieco łatwiej poradzić sobie).
Glen_b
36
  1. Jeśli nasz okres kary będzie nieskończony dla każdego innego niż , więc to otrzymamy. Nie ma innego wektora, który dałby nam skończoną wartość funkcji celu.β β = 0λββ=0

(Aktualizacja: proszę zobaczyć odpowiedź Glen_b. To nie jest właściwy historyczny powód!)

  1. Wynika to z rozwiązania regresji grzbietu w notacji macierzowej. Rozwiązaniem okazuje się być Termin dodaje „grzbiet” do głównej przekątnej i gwarantuje, że uzyskana macierz jest odwracalna. Oznacza to, że w przeciwieństwie do OLS, zawsze znajdziemy rozwiązanie.λI
    β^=(XTX+λI)1XTY.
    λI

Regresja kalenicy jest przydatna, gdy predyktory są skorelowane. W tym przypadku OLS może dawać dzikie wyniki z ogromnymi współczynnikami, ale jeśli zostaną ukarane, możemy uzyskać znacznie bardziej rozsądne wyniki. Ogólnie dużą zaletą regresji kalenicowej jest to, że rozwiązanie zawsze istnieje, jak wspomniano powyżej. Dotyczy to nawet przypadku, w którym , dla którego OLS nie może zapewnić (unikalnego) rozwiązania.n<p

Regresja grzbietu jest również wynikiem, gdy normalny przełożony zostanie umieszczony na wektorze .β

Oto bayesowskie podejście do regresji grzbietu: Załóżmy, że nasz poprzedni dla to . Zatem ponieważ [z założenia] mamy β N ( 0 , σ 2β(Y|X,β)N(Xβ,σ2In)βN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

Znajdźmy tryb tylny (moglibyśmy również spojrzeć na średnią tylną lub inne rzeczy, ale w tym celu przyjrzyjmy się trybowi, tj. Najbardziej prawdopodobnej wartości). Oznacza to, że chcemy co jest równoważne z

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
ponieważ jest ściśle monotoniczny, a to z kolei jest równoważne log
minβRp||yXβ||2+λβTβ

który powinien wyglądać znajomo.

Widzimy zatem, że jeśli umieścimy normalny pierwszeństwo ze średnią 0 i wariancją na naszym wektorze , wartość która maksymalizuje tył jest estymatorem grzbietu. Zauważ, że traktuje to bardziej jako parametr częsty, ponieważ nie ma na nim wcześniejszego parametru, ale nie jest znane, więc nie jest to w pełni bayesowski.σ2λββσ2

Edycja: zapytałeś o przypadek, w którym . Wiemy, że hiperpłaszczyzna w jest zdefiniowana przez dokładnie punktów. Jeśli prowadzimy regresję liniową, a to dokładnie interpolujemy nasze dane i otrzymujemy . Jest to rozwiązanie, ale jest okropne: nasza wydajność w zakresie przyszłych danych najprawdopodobniej będzie fatalna. Załóżmy teraz, że : nie ma już unikalnej hiperpłaszczyzny zdefiniowanej przez te punkty. Możemy zmieścić wiele hiperpłaszczyzn, każda z zerową sumą kwadratów.n<pRppn=p||yXβ^||2=0n<p

Bardzo prosty przykład: załóżmy, że . Następnie uzyskamy linię między tymi dwoma punktami. Załóżmy teraz, że ale . Wyobraź sobie samolot z tymi dwoma punktami. Możemy obrócić tę płaszczyznę bez zmiany faktu, że znajdują się w niej te dwa punkty, więc istnieje niezliczona ilość wszystkich modeli z idealną wartością naszej funkcji celu, więc nawet poza kwestią nadmiernego dopasowania nie jest jasne, który wybrać.n=p=2n=2p=3

Jako komentarz końcowy (zgodnie z sugestią @ Gunga), LASSO (z zastosowaniem kary ) jest powszechnie stosowany w przypadku problemów o dużych wymiarach, ponieważ automatycznie dokonuje wyboru zmiennych (ustawia niektóre ). Co ciekawe, okazuje się, że LASSO odpowiada znalezieniu trybu tylnego przy użyciu podwójnego wykładniczego (aka Laplace'a) przed wektorem . LASSO ma także pewne ograniczenia, takie jak nasycanie predyktorami i niekoniecznie obchodzenie się z grupami skorelowanych predyktorów w idealny sposób, więc elastyczna siatka (wypukła kombinacja kar i ) może zostać wykorzystana.L1βj=0βnL1L2

jld
źródło
1
(+1) Twoja odpowiedź może zostać poprawiona poprzez rozwinięcie związku między regresją bayesowską a regresją kalenicową.
Sycorax,
1
Zrobi - teraz wpiszę.
JLD
4
OLS nie może znaleźć unikalnego rozwiązania, gdy ponieważ matryca projektowa nie ma pełnej rangi. To bardzo częste pytanie; przeszukaj archiwa, by zobaczyć, dlaczego to nie działa. n<p
Sycorax,
2
@cgo: wyjaśnienia i sugestie użytkownika7777 są dobre, ale dla kompletności dodałem również (mam nadzieję) intuicyjne wyjaśnienie.
JLD
5
+1, fajna odpowiedź. Re n <p, możesz wspomnieć, że LASSO jest zwykle używane w tym przypadku i że jest ściśle związane z RR.
gung