Interpretacja regularyzacji grzbietu w regresji

25

Mam kilka pytań dotyczących kary za kalenicę w kontekście najmniejszych kwadratów:

β_{r i d g e} = (λ I_{D} + X^{'} X)^{- 1} X^{'} y

$\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y$

1) Wyrażenie to sugeruje, że macierz kowariancji X jest zmniejszona w kierunku macierzy diagonalnej, co oznacza, że (zakładając, że zmienne są znormalizowane przed procedurą) korelacja między zmiennymi wejściowymi zostanie obniżona. Czy ta interpretacja jest poprawna?

2) Jeśli jest to aplikacja skurczowa, dlaczego nie jest sformułowana w liniach $(\lambda I_D + (1-\lambda)X'X)$ , zakładając, że możemy w jakiś sposób ograniczyć lambda do [0,1] zakresu za pomocą normalizacji.

3) Co może być normalizacją dla $\lambda$ aby można ją było ograniczyć do standardowego zakresu, takiego jak [0,1].

4) Dodanie stałej do przekątnej wpłynie na wszystkie wartości własne. Czy lepiej byłoby atakować tylko wartości pojedyncze lub zbliżone do liczby pojedynczej? Czy jest to równoważne ze stosowaniem PCA do X i zachowaniem głównych składników N przed regresją, czy też ma inną nazwę (ponieważ nie modyfikuje obliczeń kowariancji krzyżowej)?

5) Czy możemy uregulować kowariancję krzyżową, czy też ma ona jakieś zastosowanie, co oznacza

β_{r i d g e} = (λ I_{D} + X^{'} X)^{- 1} (γ X^{'} y)

$\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y)$

gdzie mała $\gamma$ obniży kowariancję krzyżową. Oczywiście obniża to wszystkie $\beta$ jednakowo, ale być może istnieje mądrzejszy sposób, taki jak progowanie twarde / miękkie w zależności od wartości kowariancji.

regression pca regularization ridge-regression Cagdas Ozgenc
źródło

iirc kara kalenicowa pochodzi z ograniczenia, że

, poprzez mnożnik Lagrange'a na funkcji celu MSE. LASSO jest taki sam, ale z

zamiast. Jestem przy telefonie, więc nie mogę teraz łatwo napisać pochodnej. Ale są to świetne pytania

\sum β^{2} \leq T

$\sum \beta^2 \leq T$

| β |

$|\beta|$

shadowtalker

19

Dobre pytania!

Tak, to jest dokładnie poprawne. Możesz zobaczyć karę kalenicową jako jeden z możliwych sposobów radzenia sobie z problemem wielokoliniowości, który powstaje, gdy wiele predyktorów jest wysoce skorelowanych. Wprowadzenie kary kalenicowej skutecznie obniża te korelacje.
Myślę, że jest to częściowo tradycja, a częściowo fakt, że wzór regresji grzbietu, jak stwierdzono w pierwszym równaniu, wynika z następującej funkcji kosztu: Jeśli , drugi składnik można usunąć, a minimalizacja pierwszego składnika („błąd rekonstrukcji”) prowadzi do standardowej formuły OLS dla . Utrzymanie drugiego terminu prowadzi do wzoru na
$L = ‖ y - X β ‖^{2} + λ ‖ β ‖^{2} .$ $L=\| \mathbf y - \mathbf X \beta \|^2 + \lambda \|\beta\|^2.$ $\lambda=0$ $\beta$ $\beta_\mathrm{ridge}$ . Ta funkcja kosztów jest matematycznie bardzo wygodna w obsłudze i może to być jeden z powodów preferowania „nienormalizowanej” lambda.
Jednym z możliwych sposobów normalizacji jest przeskalowanie go o całkowitą wariancję , tj. Użycie zamiast . To niekoniecznie ograniczyłoby do , ale uczyniłoby ją „bezwymiarową” i prawdopodobnie spowodowałoby, że optymalna jest mniejsza niż we wszystkich praktycznych przypadkach (Uwaga: to tylko przypuszczenie!). $\lambda$ $\mathrm{tr}(\mathbf X^\top \mathbf X)$ $\lambda \mathrm{tr}(\mathbf X^\top \mathbf X)$ $\lambda$ $\lambda$ $[0,1]$ $\lambda$ $1$
„Atakowanie tylko małych wartości własnych” ma osobną nazwę i nazywa się regresją głównych składników. Związek między PCR a regresją grzbietu polega na tym, że w PCR efektywnie masz „karę krokową” odcinającą wszystkie wartości własne po określonej liczbie, podczas gdy regresja kalenicy stosuje „karę miękką”, penalizującą wszystkie wartości własne, przy czym mniejsze są bardziej karane. Jest to dobrze wyjaśnione w The Elements of Statistics Learning autorstwa Hastie i in. (bezpłatnie dostępny online), sekcja 3.4.1. Zobacz także moją odpowiedź w Relacji między regresją kalenicy a regresją PCA .
Nigdy tego nie widziałem, ale zauważ, że możesz rozważyć funkcję kosztu w postaciTo zmniejsza twoją nie do zera, ale do innej wstępnie zdefiniowanej wartości . Jeśli rozwiążesz matematykę, dojdziesz do optymalnej podanej przez co może być postrzegane jako „regularyzacja kowariancji krzyżowej”?
$L = ‖ y - X β ‖^{2} + λ ‖ β - β_{0} ‖^{2} .$ $L=\| \mathbf y - \mathbf X \beta \|^2 + \lambda \|\beta-\beta_0\|^2.$ $\beta$ $\beta_0$ $\beta$ $β = (X^{⊤} X + λ I)^{- 1} (X^{⊤} y + λ β_{0}),$ $\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} (\mathbf X^\top \mathbf y + \lambda \beta_0),$

ameba mówi Przywróć Monikę
źródło

1

Czy mógłby Pan wyjaśnić, dlaczego dodanie

do

oznacza, że macierz kowariancji

kurczy się w kierunku przekątnej matrycy? Przypuszczam, że jest to czysto liniowe pytanie algebry.

λ I_{D}

$\lambda I_D$

X^{'} X

$X'X$

X

$X$

Heisenberg

3

@ Heisenberg, cóż,

jest macierzą kowariancji

(do współczynnika skalowania

). Obliczanie

wymaga odwrócenia tej macierzy kowariancji. W regresji grzbietowej zamiast tego odwracamy

, dzięki czemu można zobaczyć

jako regularne oszacowanie macierzy kowariancji. Teraz termin

jest macierzą diagonalną z na przekątnej. Wyobraź sobie, że jest bardzo duża; wówczas suma jest zdominowana przez przekątną

X^{⊤} X

$X^\top X$

X

$X$

1 / N

$1/N$

β

$\beta$

X^{⊤} X + λ I

$X^\top X + \lambda I$

X^{⊤} X + λ I

$X^\top X + \lambda I$

λ I

$\lambda I$

λ

$\lambda$

λ

$\lambda$

λ I

$\lambda I$ , a zatem regularna kowariancja staje się coraz bardziej przekątna w miarę wzrostu .

λ

$\lambda$

ameba mówi Przywróć Monikę

wrt Q5, Elementy uczenia statystycznego analizują ograniczenia płynności dla aplikacji do przetwarzania obrazu (PDA - strona 447)

seanv507

10

Kolejny komentarz do pytania 4. W rzeczywistości regresja kalenicowa całkiem skutecznie radzi sobie z małymi wartościami własnymi , pozostawiając głównie duże wartości własne w spokoju. $X^{T}X$

Aby to zobaczyć, należy wyrazić estymator regresji grzbietu w kategoriach rozkładu wartości pojedynczej , $X$

X = \sum_{i = 1}^{n} σ_{i} u_{i} v_{i}^{T}

$X=\sum_{i=1}^{n} \sigma_{i}u_{i}v_{i}^{T}$

gdzie wektory są wzajemnie prostopadłe, a wektory są również wzajemnie ortogonalne. Tutaj wartości własne wynoszą , . $u_{i}$ $v_{i}$ $X^{T}X$ $\sigma_{i}^{2}$ $i=1, 2, \ldots, n$

Następnie możesz to pokazać

β_{ridge} = \sum_{i = 1}^{n} \frac{σ_{i}^{2}}{σ_{i}^{2} + λ} \frac{1}{σ_{i}} (u_{i}^{T} y) v_{i} .

$\beta_{\mbox{ridge}}=\sum_{i=1}^{n} \frac{\sigma_{i}^{2}}{\sigma_{i}^{2}+\lambda}\frac{1}{\sigma_{i}} (u_{i}^{T}y) v_{i}.$

Rozważmy teraz „współczynniki filtra” . Jeśli , wówczas współczynniki filtru wynoszą 1 i otrzymujemy konwencjonalne rozwiązanie najmniejszych kwadratów. Jeśli i , to współczynnik filtrowania wynosi zasadniczo 1. Jeśli , to współczynnik ten jest zasadniczo równy 0. Zatem terminy odpowiadające małym wartościom własnym skutecznie wypadają, podczas gdy te odpowiadające zachowane są większe wartości własne. $\sigma_{i}^{2}/(\sigma_{i}^{2}+\lambda)$ $\lambda=0$ $\lambda > 0$ $\sigma_{i}^{2} \gg \lambda$ $\sigma_{i}^{2} \ll \lambda$

Dla porównania, regresja głównych składników po prostu wykorzystuje w tym wzorze współczynniki 1 (dla większych wartości własnych) lub 0 (dla mniejszych wartości własnych, które są pomijane).

Brian Borchers
źródło

1

Właśnie o tym krótko wspomniałem w mojej odpowiedzi, ale bardzo miło jest to opracować i zademonstrować matematycznie +1.

ameba mówi Przywróć Monikę

5

Pytania 1, 2 i 3 są powiązane. Lubię myśleć, że tak, wprowadzając kary Ridge w modelu regresji liniowej można interpretować jako kurczenie na EIGEN wartościach . Aby dokonać takiej interpretacji, należy najpierw założyć, że jest wyśrodkowany. Interpretacja ta opiera się na następującej równoważności: przy $X$ $X$

λ x + y = κ (α x + (1 - α) y),

$\lambda x + y = \kappa \left( \alpha x + (1-\alpha) y\right),$

i

. Jeśli

, natychmiast wynika, że

.

α = \frac{λ}{1 + λ}

$\alpha=\frac{\lambda}{1+\lambda}$

κ = 1 + λ

$\kappa = 1+\lambda$

0 \leq λ < + \infty

$0 \leq \lambda < + \infty$

0 < α \leq 1

$0 < \alpha \leq 1$

Technika, którą określasz jako „atakowanie tylko wartości pojedynczych lub bliskich liczby pojedynczej” jest również znana jako Analiza widma osobliwego (dla celów regresji liniowej) (patrz równanie 19), jeśli przez „atakowanie” masz na myśli „usunięcie „. Krzyżowa kowariancja pozostaje niezmieniona.

$X$

Vincent Guillemot
źródło

Dziękuję Ci. W PCR kowariancję zy oblicza się po przeprowadzeniu redukcji wymiaru, nie? Czy to różnica między PCR a SSA? Twoja gamma (nie moja), jak to wybierzesz, aby alfa była [0,1] ograniczona?

Cagdas Ozgenc

1

γ

$\gamma$

κ

$\kappa$

Myślę, że masz rację co do różnicy między SSA i PCR, ale powinniśmy to zapisać, aby się upewnić.

Vincent Guillemot,

Interpretacja regularyzacji grzbietu w regresji

Odpowiedzi: