Interpretacja regularyzacji grzbietu w regresji

25

Mam kilka pytań dotyczących kary za kalenicę w kontekście najmniejszych kwadratów:

βridge=(λID+XX)1Xy

1) Wyrażenie to sugeruje, że macierz kowariancji X jest zmniejszona w kierunku macierzy diagonalnej, co oznacza, że ​​(zakładając, że zmienne są znormalizowane przed procedurą) korelacja między zmiennymi wejściowymi zostanie obniżona. Czy ta interpretacja jest poprawna?

2) Jeśli jest to aplikacja skurczowa, dlaczego nie jest sformułowana w liniach (λID+(1λ)XX) , zakładając, że możemy w jakiś sposób ograniczyć lambda do [0,1] zakresu za pomocą normalizacji.

3) Co może być normalizacją dla λ aby można ją było ograniczyć do standardowego zakresu, takiego jak [0,1].

4) Dodanie stałej do przekątnej wpłynie na wszystkie wartości własne. Czy lepiej byłoby atakować tylko wartości pojedyncze lub zbliżone do liczby pojedynczej? Czy jest to równoważne ze stosowaniem PCA do X i zachowaniem głównych składników N przed regresją, czy też ma inną nazwę (ponieważ nie modyfikuje obliczeń kowariancji krzyżowej)?

5) Czy możemy uregulować kowariancję krzyżową, czy też ma ona jakieś zastosowanie, co oznacza

βridge=(λID+XX)1(γXy)

gdzie mała γ obniży kowariancję krzyżową. Oczywiście obniża to wszystkie β jednakowo, ale być może istnieje mądrzejszy sposób, taki jak progowanie twarde / miękkie w zależności od wartości kowariancji.

Cagdas Ozgenc
źródło
iirc kara kalenicowa pochodzi z ograniczenia, że , poprzez mnożnik Lagrange'a na funkcji celu MSE. LASSO jest taki sam, ale z | β | zamiast. Jestem przy telefonie, więc nie mogę teraz łatwo napisać pochodnej. Ale są to świetne pytaniaβ2T|β|
shadowtalker

Odpowiedzi:

19

Dobre pytania!

  1. Tak, to jest dokładnie poprawne. Możesz zobaczyć karę kalenicową jako jeden z możliwych sposobów radzenia sobie z problemem wielokoliniowości, który powstaje, gdy wiele predyktorów jest wysoce skorelowanych. Wprowadzenie kary kalenicowej skutecznie obniża te korelacje.

  2. Myślę, że jest to częściowo tradycja, a częściowo fakt, że wzór regresji grzbietu, jak stwierdzono w pierwszym równaniu, wynika z następującej funkcji kosztu: Jeśli λ = 0 , drugi składnik można usunąć, a minimalizacja pierwszego składnika („błąd rekonstrukcji”) prowadzi do standardowej formuły OLS dla β . Utrzymanie drugiego terminu prowadzi do wzoru na β r i d g e

    L=yXβ2+λβ2.
    λ=0ββridge. Ta funkcja kosztów jest matematycznie bardzo wygodna w obsłudze i może to być jeden z powodów preferowania „nienormalizowanej” lambda.
  3. Jednym z możliwych sposobów normalizacji jest przeskalowanie go o całkowitą wariancję t r ( XX ) , tj. Użycie λ t r ( XX ) zamiast . To niekoniecznie ograniczyłoby do , ale uczyniłoby ją „bezwymiarową” i prawdopodobnie spowodowałoby, że optymalna jest mniejsza niż we wszystkich praktycznych przypadkach (Uwaga: to tylko przypuszczenie!).λtr(XX)λtr(XX)λλ[0,1]λ1

  4. „Atakowanie tylko małych wartości własnych” ma osobną nazwę i nazywa się regresją głównych składników. Związek między PCR a regresją grzbietu polega na tym, że w PCR efektywnie masz „karę krokową” odcinającą wszystkie wartości własne po określonej liczbie, podczas gdy regresja kalenicy stosuje „karę miękką”, penalizującą wszystkie wartości własne, przy czym mniejsze są bardziej karane. Jest to dobrze wyjaśnione w The Elements of Statistics Learning autorstwa Hastie i in. (bezpłatnie dostępny online), sekcja 3.4.1. Zobacz także moją odpowiedź w Relacji między regresją kalenicy a regresją PCA .

  5. Nigdy tego nie widziałem, ale zauważ, że możesz rozważyć funkcję kosztu w postaciTo zmniejsza twoją nie do zera, ale do innej wstępnie zdefiniowanej wartości . Jeśli rozwiążesz matematykę, dojdziesz do optymalnej podanej przez co może być postrzegane jako „regularyzacja kowariancji krzyżowej”?

    L=yXβ2+λββ02.
    ββ0β
    β=(XX+λI)1(Xy+λβ0),
ameba mówi Przywróć Monikę
źródło
1
Czy mógłby Pan wyjaśnić, dlaczego dodanie do X. ' X oznacza, że macierz kowariancji X kurczy się w kierunku przekątnej matrycy? Przypuszczam, że jest to czysto liniowe pytanie algebry. λIDXXX
Heisenberg
3
@ Heisenberg, cóż, jest macierzą kowariancji X (do współczynnika skalowania 1 / N ). Obliczanie β wymaga odwrócenia tej macierzy kowariancji. W regresji grzbietowej zamiast tego odwracamy X X + λ I , dzięki czemu można zobaczyć X X + λ I jako regularne oszacowanie macierzy kowariancji. Teraz termin λ I jest macierzą diagonalną z na przekątnej. Wyobraź sobie, że jest bardzo duża; wówczas suma jest zdominowana przez przekątnąXXX1/NβXX+λIXX+λIλIλλ I λλλI , a zatem regularna kowariancja staje się coraz bardziej przekątna w miarę wzrostu . λ
ameba mówi Przywróć Monikę
wrt Q5, Elementy uczenia statystycznego analizują ograniczenia płynności dla aplikacji do przetwarzania obrazu (PDA - strona 447)
seanv507
10

Kolejny komentarz do pytania 4. W rzeczywistości regresja kalenicowa całkiem skutecznie radzi sobie z małymi wartościami własnymi , pozostawiając głównie duże wartości własne w spokoju. XTX

Aby to zobaczyć, należy wyrazić estymator regresji grzbietu w kategoriach rozkładu wartości pojedynczej , X

X=i=1nσiuiviT

gdzie wektory są wzajemnie prostopadłe, a V I wektory są również wzajemnie ortogonalne. Tutaj wartości własne X T X wynoszą σ 2 i , i = 1 , 2 , , n . uiviXTXσi2i=1,2,,n

Następnie możesz to pokazać

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

Rozważmy teraz „współczynniki filtra” . Jeśli λ = 0 , wówczas współczynniki filtru wynoszą 1 i otrzymujemy konwencjonalne rozwiązanie najmniejszych kwadratów. Jeśli λ > 0 i σ 2 iλ , to współczynnik filtrowania wynosi zasadniczo 1. Jeśli σ 2 iλ , to współczynnik ten jest zasadniczo równy 0. Zatem terminy odpowiadające małym wartościom własnym skutecznie wypadają, podczas gdy te odpowiadające zachowane są większe wartości własne. σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

Dla porównania, regresja głównych składników po prostu wykorzystuje w tym wzorze współczynniki 1 (dla większych wartości własnych) lub 0 (dla mniejszych wartości własnych, które są pomijane).

Brian Borchers
źródło
1
Właśnie o tym krótko wspomniałem w mojej odpowiedzi, ale bardzo miło jest to opracować i zademonstrować matematycznie +1.
ameba mówi Przywróć Monikę
5

Pytania 1, 2 i 3 są powiązane. Lubię myśleć, że tak, wprowadzając kary Ridge w modelu regresji liniowej można interpretować jako kurczenie na EIGEN wartościach . Aby dokonać takiej interpretacji, należy najpierw założyć, że X jest wyśrodkowany. Interpretacja ta opiera się na następującej równoważności: λ x + y = κ ( α x + ( 1 - α ) y ) , przy α = λXX

λx+y=κ(αx+(1α)y),
iκ=1+λ. Jeśli0λ<+, natychmiast wynika, że0<α1.α=λ1+λκ=1+λ0λ<+0<α1

Technika, którą określasz jako „atakowanie tylko wartości pojedynczych lub bliskich liczby pojedynczej” jest również znana jako Analiza widma osobliwego (dla celów regresji liniowej) (patrz równanie 19), jeśli przez „atakowanie” masz na myśli „usunięcie „. Krzyżowa kowariancja pozostaje niezmieniona.

X

Vincent Guillemot
źródło
Dziękuję Ci. W PCR kowariancję zy oblicza się po przeprowadzeniu redukcji wymiaru, nie? Czy to różnica między PCR a SSA? Twoja gamma (nie moja), jak to wybierzesz, aby alfa była [0,1] ograniczona?
Cagdas Ozgenc
1
γκ
Myślę, że masz rację co do różnicy między SSA i PCR, ale powinniśmy to zapisać, aby się upewnić.
Vincent Guillemot,