Związek między regresją kalenicową a regresją PCA

19

Pamiętam, że gdzieś w Internecie przeczytałem związek między regresją kalenicy (z regulacją 2 ) a regresją PCA: podczas korzystania z regresji regulowanej z hiperparametrem , jeśli , to regresja jest równoważna usunięciu Zmienna PC o najmniejszej wartości własnej.2λλ0

  • Dlaczego to prawda?
  • Czy to ma coś wspólnego z procedurą optymalizacji? Naiwnie oczekiwałbym, że będzie to odpowiednik OLS.
  • Czy ktoś ma do tego referencje?
Jose G.
źródło
1
Czy możesz wyjaśnić bardziej precyzyjnie, w jaki sposób PCA i regresja są połączone w twoim oświadczeniu? Regresja odróżnia zależne od zmiennych niezależnych, podczas gdy nic takiego nie występuje w PCA. Więc do jakich zmiennych stosuje się PCA? Nie mogą to być tylko zmienne niezależne, ponieważ nie miałoby to nic wspólnego z regresją. Ale jeśli zostanie zastosowane do wszystkich zmiennych, wówczas wektory własne są liniowymi kombinacjami ich wszystkich. Co może to oznaczać usunięcie dowolnego takiego komponentu z zestawu danych, ponieważ dotyczy zmiennej zależnej?
whuber
1
Związek (jak rozumiem) polega na tym, że jeśli użyjesz bardzo małej kary regularyzacyjnej, regresja regulowana przez L2 usunęłaby zmienną o najmniejszej wartości własnej. Dlatego robienie SVD na matrycy projektowej i usuwanie zmiennej o najmniejszej wartości własnej jest równoważne regresji z „miękką” karą za regularyzację ... To jest najbliższe wytłumaczenie, jakie znalazłem na ten temat: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G
3
Wydaje się, że twoje odniesienie pokazuje przeciwieństwo tego, co mówisz w swoich komentarzach: w przypadku małego zmiana wyników jest bardzo niewielka. W ogóle nic nie jest usuwane. W rzeczywistości kilka slajdów wydaje się wskazywać na różnicę między regresją karną L 2 (w której szacunki są zmniejszane do 0 ) a „regresją PCA” (w której całkowicie usuwane są najmniejsze składniki - co może być bardzo złe w niektóre okoliczności). λL20
whuber
2
Mmm .. znalazł inne odniesienie: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf Na slajdzie „ i główne komponenty” mówi, że regresja grzbietu rzutuje y na te komponenty za pomocą big dj * westchnienie *yridge
Jose G
3
Czy zauważyłeś, że p. 14 z tego ostatniego odniesienia wyraźnie odpowiada na twoje pytanie?
whuber

Odpowiedzi:

23

Niech będzie wyśrodkowaną macierzą predykcyjną n × p i rozważmy jej rozkład liczby pojedynczej X = U S V ⊤, gdzie S jest macierzą diagonalną z elementami diagonalnymi s i .Xn×pX=USVSsi

Dopasowanego wartości zwykłych najmniejszych kwadratów (OLS) regresji są podane y O L S = X P O L S = X ( XX ) - 1 Xy = U UY . Dopasowanego wartości regresji grzbiet są podane r r i d g e = X β r i d g e = x ( xX

y^OLS=XβOLS=X(XX)1Xy=UUy.
Dopasowanego wartości regresji PCA (PCR) zkskładników są podane Y pCR=XPCβPCR=U
y^ridge=Xβridge=X(XX+λI)1Xy=Udiag{si2si2+λ}Uy.
k gdzie jest k jedynek poprzedzonych zerami.
y^PCR=XPCAβPCR=Udiag{1,,1,0,0}Uy,
k

Stąd możemy zobaczyć, że:

  1. Jeśli wówczas Y R I d g e = r O l S .λ=0y^ridge=y^OLS

  2. λ>0sisi2λ

  3. kλ=0kλ=

  4. Oznacza to, że regresję grzbietu można postrzegać jako „płynną wersję” PCR.

    siX

  5. Regresja grzbietu ma tendencję do osiągania lepszych wyników w praktyce (np. W celu uzyskania wyższej wydajności potwierdzonej krzyżowo)

  6. λ0y^ridgey^OLSsi

Jednym z dobrych odniesień są elementy uczenia statystycznego , sekcja 3.4.1 „Regresja kalenicy”.


Zobacz także ten wątek: Interpretacja regulacji regularności grzbietu w regresji, a w szczególności odpowiedź @BrianBorchers.

ameba mówi Przywróć Monikę
źródło
siβLeastsquares
k
Udiag(11,12,...,1k,0,...,0)UTy
To jest piękne.
xxx222,
6

Elementy uczenia statystycznego mają świetną dyskusję na temat tego związku.

Zinterpretowałem to połączenie i logikę w następujący sposób:

  • PCA jest liniową kombinacją zmiennych cech, próbującą zmaksymalizować wariancję danych wyjaśnioną przez nową przestrzeń.
  • Dane cierpiące na wielokoliniowość (lub więcej predyktorów niż wiersze danych) prowadzą do macierzy kowariancji, która nie ma pełnej rangi.
  • Dzięki tej macierzy kowariancji nie możemy odwrócić, aby ustalić rozwiązanie najmniejszych kwadratów; powoduje to przybliżenie liczbowe współczynników najmniejszych kwadratów aż do nieskończoności.
  • Regresja grzbietowa wprowadza karę lambda na macierz kowariancji, aby umożliwić odwrócenie macierzy i zbieżność współczynników LS.

Połączenie PCA polega na tym, że regresja grzbietu oblicza kombinacje liniowe cech, aby określić, gdzie występuje wielokoliniowość. Kombinacje liniowe cech (analiza składowych zasad) o najmniejszej wariancji (a zatem mniejsze wartości osobliwe i mniejsze wartości własne w PCA) są najsilniej karane.

Pomyśl o tym w ten sposób; dla liniowych kombinacji cech o najmniejszej wariancji znaleźliśmy cechy, które są do siebie najbardziej podobne, a zatem powodują wielokoliniowość. Ponieważ Ridge nie zmniejsza zestawu elementów, niezależnie od kierunku, który opisuje to połączenie liniowe, najbardziej oryginalna cecha odpowiadająca temu kierunkowi jest najbardziej karana.

MDornbos
źródło
2

Xβ=y,
X
X=USVT,
S=diag(si)

β

βOLS=VS1UT
si

S1β

Sridge1=diag(sisi2+α),βridge= VSridge1UT

S1

SPCA1=diag(1siθ(siγ)),βPCA= VSPCA1UT
θγ

Obie metody osłabiają w ten sposób wpływ podprzestrzeni odpowiadających małym wartościom. PCA robi to w trudny sposób, podczas gdy grzbiet jest płynniejszy.

SmyReg1=diag(R(si)),
where R(x) is a function that should approach zero for x0 and R(x)x1 for x large. But remember, there's no free lunch.

davidhigh
źródło