Pamiętam, że gdzieś w Internecie przeczytałem związek między regresją kalenicy (z regulacją ) a regresją PCA: podczas korzystania z regresji regulowanej z hiperparametrem , jeśli , to regresja jest równoważna usunięciu Zmienna PC o najmniejszej wartości własnej.
- Dlaczego to prawda?
- Czy to ma coś wspólnego z procedurą optymalizacji? Naiwnie oczekiwałbym, że będzie to odpowiednik OLS.
- Czy ktoś ma do tego referencje?
Odpowiedzi:
Niech będzie wyśrodkowaną macierzą predykcyjną n × p i rozważmy jej rozkład liczby pojedynczej X = U S V ⊤, gdzie S jest macierzą diagonalną z elementami diagonalnymi s i .X n×p X=USV⊤ S si
Dopasowanego wartości zwykłych najmniejszych kwadratów (OLS) regresji są podane y O L S = X P O L S = X ( X ⊤ X ) - 1 X ⊤ y = U U ⊤ Y . Dopasowanego wartości regresji grzbiet są podane r r i d g e = X β r i d g e = x ( x ⊤ X
Stąd możemy zobaczyć, że:
Jeśli wówczas Y R I d g e = r O l S .λ=0 y^ridge=y^OLS
Oznacza to, że regresję grzbietu można postrzegać jako „płynną wersję” PCR.
Regresja grzbietu ma tendencję do osiągania lepszych wyników w praktyce (np. W celu uzyskania wyższej wydajności potwierdzonej krzyżowo)
Jednym z dobrych odniesień są elementy uczenia statystycznego , sekcja 3.4.1 „Regresja kalenicy”.
Zobacz także ten wątek: Interpretacja regulacji regularności grzbietu w regresji, a w szczególności odpowiedź @BrianBorchers.
źródło
Elementy uczenia statystycznego mają świetną dyskusję na temat tego związku.
Zinterpretowałem to połączenie i logikę w następujący sposób:
Połączenie PCA polega na tym, że regresja grzbietu oblicza kombinacje liniowe cech, aby określić, gdzie występuje wielokoliniowość. Kombinacje liniowe cech (analiza składowych zasad) o najmniejszej wariancji (a zatem mniejsze wartości osobliwe i mniejsze wartości własne w PCA) są najsilniej karane.
Pomyśl o tym w ten sposób; dla liniowych kombinacji cech o najmniejszej wariancji znaleźliśmy cechy, które są do siebie najbardziej podobne, a zatem powodują wielokoliniowość. Ponieważ Ridge nie zmniejsza zestawu elementów, niezależnie od kierunku, który opisuje to połączenie liniowe, najbardziej oryginalna cecha odpowiadająca temu kierunkowi jest najbardziej karana.
źródło
Obie metody osłabiają w ten sposób wpływ podprzestrzeni odpowiadających małym wartościom. PCA robi to w trudny sposób, podczas gdy grzbiet jest płynniejszy.
źródło