Regresja grzbietu szacuje parametry w modelu liniowym według gdzie jest parametrem regularyzacji. Dobrze wiadomo, że często działa lepiej niż regresja OLS (z \ lambda = 0 ), gdy istnieje wiele skorelowanych predyktorów.Y = X β β λ = ( X ⊤ X + λ I ) - 1 X ⊤ Y , λ λ = 0
Twierdzenie o istnieniu regresji grzbietu mówi, że zawsze istnieje parametr taki, że błąd średniej kwadratowej jest ściśle mniejszy niż błąd średniej kwadratowej OLS szacowanie . Innymi słowy, optymalna wartość jest zawsze niezerowa. Najprawdopodobniej zostało to udowodnione po raz pierwszy w Hoerl i Kennard, 1970 i zostało powtórzone w wielu notatkach z wykładów, które znajduję w Internecie (np. Tutaj i tutaj ). Moje pytanie dotyczy założeń tego twierdzenia:
Czy są jakieś założenia dotyczące macierzy kowariancji ?
Czy są jakieś założenia dotyczące wymiarowości ?
W szczególności, czy twierdzenie jest nadal prawdziwe, jeśli predyktory są ortogonalne (tj. jest przekątna), a nawet jeśli ? I czy nadal jest to prawdą, jeśli istnieje tylko jeden lub dwa predyktory (powiedzmy jeden predyktor i przechwytywanie)?
Jeśli twierdzenie nie przyjmuje takich założeń i pozostaje prawdziwe nawet w tych przypadkach, to dlaczego regresja kalenicy jest zwykle zalecana tylko w przypadku skorelowanych predyktorów i nigdy (?) Nie jest zalecana dla prostej (tzn. Nie wielokrotnej) regresji?
Jest to związane z moim pytaniem dotyczącym ujednoliconego poglądu na skurcz: jaka jest relacja (jeśli występuje) między paradoksem Steina, regresją grzbietu i efektami losowymi w modelach mieszanych? , ale do tej pory brak odpowiedzi wyjaśniających ten punkt.
źródło
Odpowiedzi:
Odpowiedź na zarówno 1, jak i 2 brzmi „nie”, ale należy interpretować twierdzenie o istnieniu.
Wariancja Ridge Estimator
Niech będzie oszacowaniem grzbietu pod karą , i niech będzie prawdziwym parametrem dla modelu . Niech będą wartościami własnymi . Zgodnie z równaniami Hoerla i Kennarda 4.2–4.5 ryzyko (pod względem oczekiwanej normy błędu ) wynosi kβY=Xβ+ϵλ1,…,λpXTXL2β∗^ k β Y=Xβ+ϵ λ1,…,λp XTX
L2
( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. γ1 ^ β ∗ -βγ2
Załóżmy, że , a następnie Niech będzie pochodną ryzyka w / r / t . Ponieważ , dochodzimy do wniosku, że istnieje pewne takie, że R ( k ) = p σ 2 + k 2 β T βXTX=Ip R'(k)=2k(1+k)βTβ-(pσ2+k2βTβ)
Autorzy zauważają, że ortogonalność jest najlepsza, na jaką możesz liczyć pod względem ryzyka przy , oraz że wraz ze wzrostem liczby warunków , podejściaX T X lim k → 0 + R ′ ( k ) - ∞k=0 XTX limk→0+R′(k) −∞ .
Komentarz
Wydaje się, że istnieje tu paradoks, że jeśli i są stałe, to po prostu szacujemy średnią z sekwencji zmiennych Normal i znamy szacunek bezstronny waniliowy jest dopuszczalne w tym przypadku. Rozwiązuje się to, zauważając, że powyższe rozumowanie stanowi jedynie, że dla ustalonego istnieje minimalizująca wartość . Ale dla każdego możemy zwiększyć ryzyko, powodując, że duży, więc sam ten argument nie pokazuje dopuszczalności oszacowania grzbietu.p=1 X (β,σ2) k βTβ k βTβ
Dlaczego regresja kalenicy jest zwykle zalecana tylko w przypadku skorelowanych predyktorów?
Wyprowadzenie ryzyka przez H&K pokazuje, że jeśli uważamy, że jest mała, a jeśli konstrukcja jest prawie pojedyncza, to możemy osiągnąć duże zmniejszenie ryzyka oszacowania. Myślę, że regresja kalenicy nie jest powszechnie stosowana, ponieważ oszacowanie OLS jest bezpieczną wartością domyślną, a właściwości niezmienności i bezstronności są atrakcyjne. Kiedy zawiedzie, to zawiedzie szczerze - twoja macierz kowariancji eksploduje. Być może istnieje również punkt filozoficzny / wnioskowy, że jeśli twój projekt jest prawie osobliwy i masz dane obserwacyjne, wówczas podejrzenie interpretacji jako zmiany dla zmian jednostkowych w jest podejrzane - duża macierz kowariancji jest objaw tego.βTβ XTX β EY X
Ale jeśli twoim celem jest wyłącznie przewidywanie, obawy wnioskowania przestają obowiązywać i masz mocny argument za użyciem pewnego rodzaju estymatora skurczu.
źródło