Dlaczego regresja kalenicy nazywa się „kalenicą”, dlaczego jest potrzebna i co dzieje się, gdy przechodzi w nieskończoność?
71
Szacunkowy współczynnik regresji grzbietu to wartości, które minimalizująβ^R
RSS+λ∑j=1pβ2j.
Moje pytania to:
Jeśli , to widzimy, że powyższe wyrażenie redukuje się do zwykłego RSS. Co jeśli ? Nie rozumiem wyjaśnienia podręcznika dotyczącego zachowania współczynników.λ=0λ→∞
Dlaczego, aby pomóc w zrozumieniu koncepcji danego terminu, nazywa się regresją RIDGE? (Dlaczego grzbiet?) A co mogło być nie tak ze zwykłą / powszechną regresją, że istnieje potrzeba wprowadzenia nowej koncepcji zwanej regresją grzbietu?
Ponieważ prosisz o wgląd , zamierzam raczej dość intuicyjnie, niż matematycznie:
Zgodnie z pojęciami zawartymi w mojej odpowiedzi tutaj możemy sformułować regresję grzbietu jako regresję z danymi pozorowanymi, dodając obserwacje (w twoim sformułowaniu), gdzie , i dla . Jeśli napiszesz nowy RSS dla tego rozszerzonego zestawu danych, zobaczysz dodatkowe obserwacje, z których każdy dodaje wyraz formy , więc nowy RSS to oryginalny - a minimalizacja RSS w tym nowym, rozszerzonym zestawie danych jest tym samym, co minimalizacja kryterium regresji grzbietu.pyn+j=0xj,n+j=λ−−√xi,n+j=0i≠j(0−λ−−√βj)2=λβ2jRSS+λ∑pj=1β2j
Co możemy tu zobaczyć? Wraz ze wzrostem , każde dodatkowe rzuty mają jeden składnik, który rośnie, a więc wpływ tych punktów również wzrasta. Ciągną dopasowaną hiperpłaszczyznę do siebie. Następnie, gdy i odpowiadające jej składowe idą w nieskończoność, wszystkie zaangażowane współczynniki „spłaszczają się” do .λxλx0
Oznacza to, że jak , kara będzie dominować w minimalizacji, więc s spadnie do zera. Jeśli punkt przecięcia nie jest karany (zwykły przypadek), model coraz bardziej kurczy się w kierunku średniej odpowiedzi.λ→∞β
Wyjaśnię intuicyjnie, dlaczego najpierw mówimy o grzebieniach (co również sugeruje, dlaczego jest to potrzebne), a następnie zajmę się krótką historią. Pierwszy jest dostosowany z mojej odpowiedzi tutaj :
Jeśli występuje wielokoliniowość, pojawia się „grzbiet” w funkcji wiarygodności (prawdopodobieństwo jest funkcją ). To z kolei daje długą „dolinę” w RSS (od RSS = ).β−2logL
Regresja grzbietu „naprawia” grzbiet - dodaje karę, która zmienia grzbiet w ładny szczyt w przestrzeni prawdopodobieństwa, równoważnie miłe obniżenie w kryterium, które minimalizujemy:
Rzeczywista historia tego imienia jest nieco bardziej skomplikowana. W 1959 r. AE Hoerl [1] wprowadził analizę grzbietu do metodologii powierzchni odpowiedzi i bardzo szybko [2] przystosował się do radzenia sobie z wielokoliniowością w regresji („regresja grzbietu”). Zobacz na przykład dyskusję RW Hoerla w [3], w której opisano wykorzystanie przez Hoerla (AE nie RW) wykresów konturowych powierzchni odpowiedzi * w określeniu, gdzie udać się w celu znalezienia lokalnych optymów (gdzie jeden kieruje się w górę grzbiet'). W przypadku problemów uwarunkowanych pojawia się problem bardzo długiego grzbietu, a spostrzeżenia i metodologia z analizy grzbietu są dostosowane do pokrewnego problemu z prawdopodobieństwem / RSS w regresji, powodując regresję grzbietu.
* przykłady wykresów konturowych powierzchni odpowiedzi (w przypadku odpowiedzi kwadratowej) można zobaczyć tutaj (ryc. 3.9-3.12).
Oznacza to, że „grzbiet” w rzeczywistości odnosi się do charakterystyki funkcji, którą próbowaliśmy zoptymalizować, a nie do dodania „grzbietu” (+ ve diagonalnej) do macierzy (więc podczas gdy regresja grzbietu dodaje się do przekątnej, nie dlatego nazywamy to regresją grzbietową.XTX
Aby uzyskać dodatkowe informacje na temat potrzeby regresji grzbietu, zobacz pierwszy link w punkcie 2 listy powyżej.
To jest bardzo pomocne. Tak, kiedy prosiłem o wgląd, szukałem intuicji. Oczywiście matematyka jest ważna, ale szukałem również pojęciowych wyjaśnień, ponieważ są pewne części, kiedy matematyka była tuż poza mną. Dzięki jeszcze raz.
cgo
Dlaczego masz słowo „ważony” w punkcie 1?
ameba
1
To dobre pytanie; nie ma potrzeby jego ważenia, chyba że pierwotna regresja była ważona. Usunąłem przymiotnik. Możliwe jest również zapisanie go jako regresji ważonej (z którą, jeśli już wykonujesz regresję ważoną, może być nieco łatwiej poradzić sobie).
Glen_b
36
Jeśli nasz okres kary będzie nieskończony dla każdego innego niż , więc to otrzymamy. Nie ma innego wektora, który dałby nam skończoną wartość funkcji celu.β β = 0λ→∞ββ=0
(Aktualizacja: proszę zobaczyć odpowiedź Glen_b. To nie jest właściwy historyczny powód!)
Wynika to z rozwiązania regresji grzbietu w notacji macierzowej. Rozwiązaniem okazuje się być
Termin dodaje „grzbiet” do głównej przekątnej i gwarantuje, że uzyskana macierz jest odwracalna. Oznacza to, że w przeciwieństwie do OLS, zawsze znajdziemy rozwiązanie.λI
β^=(XTX+λI)−1XTY.
λI
Regresja kalenicy jest przydatna, gdy predyktory są skorelowane. W tym przypadku OLS może dawać dzikie wyniki z ogromnymi współczynnikami, ale jeśli zostaną ukarane, możemy uzyskać znacznie bardziej rozsądne wyniki. Ogólnie dużą zaletą regresji kalenicowej jest to, że rozwiązanie zawsze istnieje, jak wspomniano powyżej. Dotyczy to nawet przypadku, w którym , dla którego OLS nie może zapewnić (unikalnego) rozwiązania.n<p
Regresja grzbietu jest również wynikiem, gdy normalny przełożony zostanie umieszczony na wektorze .β
Oto bayesowskie podejście do regresji grzbietu: Załóżmy, że nasz poprzedni dla to . Zatem ponieważ [z założenia] mamy
β ∼ N ( 0 , σ 2β(Y|X,β)∼N(Xβ,σ2In)β∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
Znajdźmy tryb tylny (moglibyśmy również spojrzeć na średnią tylną lub inne rzeczy, ale w tym celu przyjrzyjmy się trybowi, tj. Najbardziej prawdopodobnej wartości). Oznacza to, że chcemy
co jest równoważne z
maxβ∈Rpexp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp−λ2σ2βTβ−12σ2||y−Xβ||2
ponieważ jest ściśle monotoniczny, a to z kolei jest równoważne
log
minβ∈Rp||y−Xβ||2+λβTβ
który powinien wyglądać znajomo.
Widzimy zatem, że jeśli umieścimy normalny pierwszeństwo ze średnią 0 i wariancją na naszym wektorze , wartość która maksymalizuje tył jest estymatorem grzbietu. Zauważ, że traktuje to bardziej jako parametr częsty, ponieważ nie ma na nim wcześniejszego parametru, ale nie jest znane, więc nie jest to w pełni bayesowski.σ2λββσ2
Edycja: zapytałeś o przypadek, w którym . Wiemy, że hiperpłaszczyzna w jest zdefiniowana przez dokładnie punktów. Jeśli prowadzimy regresję liniową, a to dokładnie interpolujemy nasze dane i otrzymujemy . Jest to rozwiązanie, ale jest okropne: nasza wydajność w zakresie przyszłych danych najprawdopodobniej będzie fatalna. Załóżmy teraz, że : nie ma już unikalnej hiperpłaszczyzny zdefiniowanej przez te punkty. Możemy zmieścić wiele hiperpłaszczyzn, każda z zerową sumą kwadratów.n<pRppn=p||y−Xβ^||2=0n<p
Bardzo prosty przykład: załóżmy, że . Następnie uzyskamy linię między tymi dwoma punktami. Załóżmy teraz, że ale . Wyobraź sobie samolot z tymi dwoma punktami. Możemy obrócić tę płaszczyznę bez zmiany faktu, że znajdują się w niej te dwa punkty, więc istnieje niezliczona ilość wszystkich modeli z idealną wartością naszej funkcji celu, więc nawet poza kwestią nadmiernego dopasowania nie jest jasne, który wybrać.n=p=2n=2p=3
Jako komentarz końcowy (zgodnie z sugestią @ Gunga), LASSO (z zastosowaniem kary ) jest powszechnie stosowany w przypadku problemów o dużych wymiarach, ponieważ automatycznie dokonuje wyboru zmiennych (ustawia niektóre ). Co ciekawe, okazuje się, że LASSO odpowiada znalezieniu trybu tylnego przy użyciu podwójnego wykładniczego (aka Laplace'a) przed wektorem . LASSO ma także pewne ograniczenia, takie jak nasycanie predyktorami i niekoniecznie obchodzenie się z grupami skorelowanych predyktorów w idealny sposób, więc elastyczna siatka (wypukła kombinacja kar i ) może zostać wykorzystana.L1βj=0βnL1L2
(+1) Twoja odpowiedź może zostać poprawiona poprzez rozwinięcie związku między regresją bayesowską a regresją kalenicową.
Sycorax,
1
Zrobi - teraz wpiszę.
JLD
4
OLS nie może znaleźć unikalnego rozwiązania, gdy ponieważ matryca projektowa nie ma pełnej rangi. To bardzo częste pytanie; przeszukaj archiwa, by zobaczyć, dlaczego to nie działa. n<p
Sycorax,
2
@cgo: wyjaśnienia i sugestie użytkownika7777 są dobre, ale dla kompletności dodałem również (mam nadzieję) intuicyjne wyjaśnienie.
JLD
5
+1, fajna odpowiedź. Re n <p, możesz wspomnieć, że LASSO jest zwykle używane w tym przypadku i że jest ściśle związane z RR.
(Aktualizacja: proszę zobaczyć odpowiedź Glen_b. To nie jest właściwy historyczny powód!)
Regresja kalenicy jest przydatna, gdy predyktory są skorelowane. W tym przypadku OLS może dawać dzikie wyniki z ogromnymi współczynnikami, ale jeśli zostaną ukarane, możemy uzyskać znacznie bardziej rozsądne wyniki. Ogólnie dużą zaletą regresji kalenicowej jest to, że rozwiązanie zawsze istnieje, jak wspomniano powyżej. Dotyczy to nawet przypadku, w którym , dla którego OLS nie może zapewnić (unikalnego) rozwiązania.n<p
Regresja grzbietu jest również wynikiem, gdy normalny przełożony zostanie umieszczony na wektorze .β
Oto bayesowskie podejście do regresji grzbietu: Załóżmy, że nasz poprzedni dla to . Zatem ponieważ [z założenia] mamy β ∼ N ( 0 , σ 2β (Y|X,β)∼N(Xβ,σ2In)β∼N(0,σ2λIp) (Y|X,β)∼N(Xβ,σ2In)
Znajdźmy tryb tylny (moglibyśmy również spojrzeć na średnią tylną lub inne rzeczy, ale w tym celu przyjrzyjmy się trybowi, tj. Najbardziej prawdopodobnej wartości). Oznacza to, że chcemy co jest równoważne z
który powinien wyglądać znajomo.
Widzimy zatem, że jeśli umieścimy normalny pierwszeństwo ze średnią 0 i wariancją na naszym wektorze , wartość która maksymalizuje tył jest estymatorem grzbietu. Zauważ, że traktuje to bardziej jako parametr częsty, ponieważ nie ma na nim wcześniejszego parametru, ale nie jest znane, więc nie jest to w pełni bayesowski.σ2λ β β σ2
Edycja: zapytałeś o przypadek, w którym . Wiemy, że hiperpłaszczyzna w jest zdefiniowana przez dokładnie punktów. Jeśli prowadzimy regresję liniową, a to dokładnie interpolujemy nasze dane i otrzymujemy . Jest to rozwiązanie, ale jest okropne: nasza wydajność w zakresie przyszłych danych najprawdopodobniej będzie fatalna. Załóżmy teraz, że : nie ma już unikalnej hiperpłaszczyzny zdefiniowanej przez te punkty. Możemy zmieścić wiele hiperpłaszczyzn, każda z zerową sumą kwadratów.n<p Rp p n=p ||y−Xβ^||2=0 n<p
Bardzo prosty przykład: załóżmy, że . Następnie uzyskamy linię między tymi dwoma punktami. Załóżmy teraz, że ale . Wyobraź sobie samolot z tymi dwoma punktami. Możemy obrócić tę płaszczyznę bez zmiany faktu, że znajdują się w niej te dwa punkty, więc istnieje niezliczona ilość wszystkich modeli z idealną wartością naszej funkcji celu, więc nawet poza kwestią nadmiernego dopasowania nie jest jasne, który wybrać.n=p=2 n=2 p=3
Jako komentarz końcowy (zgodnie z sugestią @ Gunga), LASSO (z zastosowaniem kary ) jest powszechnie stosowany w przypadku problemów o dużych wymiarach, ponieważ automatycznie dokonuje wyboru zmiennych (ustawia niektóre ). Co ciekawe, okazuje się, że LASSO odpowiada znalezieniu trybu tylnego przy użyciu podwójnego wykładniczego (aka Laplace'a) przed wektorem . LASSO ma także pewne ograniczenia, takie jak nasycanie predyktorami i niekoniecznie obchodzenie się z grupami skorelowanych predyktorów w idealny sposób, więc elastyczna siatka (wypukła kombinacja kar i ) może zostać wykorzystana.L1 βj=0 β n L1 L2
źródło