Mam kilka pytań dotyczących kary za kalenicę w kontekście najmniejszych kwadratów:
1) Wyrażenie to sugeruje, że macierz kowariancji X jest zmniejszona w kierunku macierzy diagonalnej, co oznacza, że (zakładając, że zmienne są znormalizowane przed procedurą) korelacja między zmiennymi wejściowymi zostanie obniżona. Czy ta interpretacja jest poprawna?
2) Jeśli jest to aplikacja skurczowa, dlaczego nie jest sformułowana w liniach , zakładając, że możemy w jakiś sposób ograniczyć lambda do [0,1] zakresu za pomocą normalizacji.
3) Co może być normalizacją dla aby można ją było ograniczyć do standardowego zakresu, takiego jak [0,1].
4) Dodanie stałej do przekątnej wpłynie na wszystkie wartości własne. Czy lepiej byłoby atakować tylko wartości pojedyncze lub zbliżone do liczby pojedynczej? Czy jest to równoważne ze stosowaniem PCA do X i zachowaniem głównych składników N przed regresją, czy też ma inną nazwę (ponieważ nie modyfikuje obliczeń kowariancji krzyżowej)?
5) Czy możemy uregulować kowariancję krzyżową, czy też ma ona jakieś zastosowanie, co oznacza
gdzie mała obniży kowariancję krzyżową. Oczywiście obniża to wszystkie jednakowo, ale być może istnieje mądrzejszy sposób, taki jak progowanie twarde / miękkie w zależności od wartości kowariancji.
źródło
Odpowiedzi:
Dobre pytania!
Tak, to jest dokładnie poprawne. Możesz zobaczyć karę kalenicową jako jeden z możliwych sposobów radzenia sobie z problemem wielokoliniowości, który powstaje, gdy wiele predyktorów jest wysoce skorelowanych. Wprowadzenie kary kalenicowej skutecznie obniża te korelacje.
Myślę, że jest to częściowo tradycja, a częściowo fakt, że wzór regresji grzbietu, jak stwierdzono w pierwszym równaniu, wynika z następującej funkcji kosztu: Jeśli λ = 0 , drugi składnik można usunąć, a minimalizacja pierwszego składnika („błąd rekonstrukcji”) prowadzi do standardowej formuły OLS dla β . Utrzymanie drugiego terminu prowadzi do wzoru na β r i d g e
Jednym z możliwych sposobów normalizacji jest przeskalowanie go o całkowitą wariancję t r ( X ⊤ X ) , tj. Użycie λ t r ( X ⊤ X ) zamiast . To niekoniecznie ograniczyłoby do , ale uczyniłoby ją „bezwymiarową” i prawdopodobnie spowodowałoby, że optymalna jest mniejsza niż we wszystkich praktycznych przypadkach (Uwaga: to tylko przypuszczenie!).λ tr(X⊤X) λtr(X⊤X) λ λ [0,1] λ 1
„Atakowanie tylko małych wartości własnych” ma osobną nazwę i nazywa się regresją głównych składników. Związek między PCR a regresją grzbietu polega na tym, że w PCR efektywnie masz „karę krokową” odcinającą wszystkie wartości własne po określonej liczbie, podczas gdy regresja kalenicy stosuje „karę miękką”, penalizującą wszystkie wartości własne, przy czym mniejsze są bardziej karane. Jest to dobrze wyjaśnione w The Elements of Statistics Learning autorstwa Hastie i in. (bezpłatnie dostępny online), sekcja 3.4.1. Zobacz także moją odpowiedź w Relacji między regresją kalenicy a regresją PCA .
Nigdy tego nie widziałem, ale zauważ, że możesz rozważyć funkcję kosztu w postaciTo zmniejsza twoją nie do zera, ale do innej wstępnie zdefiniowanej wartości . Jeśli rozwiążesz matematykę, dojdziesz do optymalnej podanej przez co może być postrzegane jako „regularyzacja kowariancji krzyżowej”?
źródło
Kolejny komentarz do pytania 4. W rzeczywistości regresja kalenicowa całkiem skutecznie radzi sobie z małymi wartościami własnymi , pozostawiając głównie duże wartości własne w spokoju.XTX
Aby to zobaczyć, należy wyrazić estymator regresji grzbietu w kategoriach rozkładu wartości pojedynczej ,X
gdzie wektory są wzajemnie prostopadłe, a V I wektory są również wzajemnie ortogonalne. Tutaj wartości własne X T X wynoszą σ 2 i , i = 1 , 2 , … , n .ui vi XTX σ2i i=1,2,…,n
Następnie możesz to pokazać
Rozważmy teraz „współczynniki filtra” . Jeśli λ = 0 , wówczas współczynniki filtru wynoszą 1 i otrzymujemy konwencjonalne rozwiązanie najmniejszych kwadratów. Jeśli λ > 0 i σ 2 i ≫ λ , to współczynnik filtrowania wynosi zasadniczo 1. Jeśli σ 2 i ≪ λ , to współczynnik ten jest zasadniczo równy 0. Zatem terminy odpowiadające małym wartościom własnym skutecznie wypadają, podczas gdy te odpowiadające zachowane są większe wartości własne.σ2i/(σ2i+λ) λ=0 λ>0 σ2i≫λ σ2i≪λ
Dla porównania, regresja głównych składników po prostu wykorzystuje w tym wzorze współczynniki 1 (dla większych wartości własnych) lub 0 (dla mniejszych wartości własnych, które są pomijane).
źródło
Pytania 1, 2 i 3 są powiązane. Lubię myśleć, że tak, wprowadzając kary Ridge w modelu regresji liniowej można interpretować jako kurczenie na EIGEN wartościach . Aby dokonać takiej interpretacji, należy najpierw założyć, że X jest wyśrodkowany. Interpretacja ta opiera się na następującej równoważności: λ x + y = κ ( α x + ( 1 - α ) y ) , przy α = λX X
Technika, którą określasz jako „atakowanie tylko wartości pojedynczych lub bliskich liczby pojedynczej” jest również znana jako Analiza widma osobliwego (dla celów regresji liniowej) (patrz równanie 19), jeśli przez „atakowanie” masz na myśli „usunięcie „. Krzyżowa kowariancja pozostaje niezmieniona.
źródło