W jakich dokładnie warunkach regresja kalenicy jest w stanie zapewnić poprawę w stosunku do zwykłej regresji metodą najmniejszych kwadratów?

16

Regresja grzbietu szacuje parametry w modelu liniowym według gdzie jest parametrem regularyzacji. Dobrze wiadomo, że często działa lepiej niż regresja OLS (z \ lambda = 0 ), gdy istnieje wiele skorelowanych predyktorów.Y = X β β λ = ( XX + λ I ) - 1 XY , λ λ = 0βy=Xβ

β^λ=(XX+λI)1Xy,
λλ=0

Twierdzenie o istnieniu regresji grzbietu mówi, że zawsze istnieje parametr λ>0 taki, że błąd średniej kwadratowej β^λ jest ściśle mniejszy niż błąd średniej kwadratowej OLS szacowanie β^OLS=β^0 . Innymi słowy, optymalna wartość λ jest zawsze niezerowa. Najprawdopodobniej zostało to udowodnione po raz pierwszy w Hoerl i Kennard, 1970 i zostało powtórzone w wielu notatkach z wykładów, które znajduję w Internecie (np. Tutaj i tutaj ). Moje pytanie dotyczy założeń tego twierdzenia:

  1. Czy są jakieś założenia dotyczące macierzy kowariancji XX ?

  2. Czy są jakieś założenia dotyczące wymiarowości X ?

W szczególności, czy twierdzenie jest nadal prawdziwe, jeśli predyktory są ortogonalne (tj. XX jest przekątna), a nawet jeśli XX=I ? I czy nadal jest to prawdą, jeśli istnieje tylko jeden lub dwa predyktory (powiedzmy jeden predyktor i przechwytywanie)?

Jeśli twierdzenie nie przyjmuje takich założeń i pozostaje prawdziwe nawet w tych przypadkach, to dlaczego regresja kalenicy jest zwykle zalecana tylko w przypadku skorelowanych predyktorów i nigdy (?) Nie jest zalecana dla prostej (tzn. Nie wielokrotnej) regresji?


Jest to związane z moim pytaniem dotyczącym ujednoliconego poglądu na skurcz: jaka jest relacja (jeśli występuje) między paradoksem Steina, regresją grzbietu i efektami losowymi w modelach mieszanych? , ale do tej pory brak odpowiedzi wyjaśniających ten punkt.

ameba mówi Przywróć Monikę
źródło
1
Wydaje się, że wszystkie z wyjątkiem ostatniego pytania są bezpośrednio poruszone w pracy Hoerla i Kennarda, szczególnie w pierwszym zdaniu Wstępu i pierwszym zdaniu Wniosków. Na ostatnie pytanie można odpowiedzieć, zauważając, że kowariancja między stałym wektorem a dowolnym pojedynczym predyktorem wynosi zawsze zero, co pozwala jednemu (w standardowy sposób) zredukować do macierzy . 1×1XX1×1
whuber
1
Dzięki, @whuber. Wierzę, że papier Hoerla i Kennarda odpowiada na moje pytania (przynajmniej te techniczne) - należy być w stanie śledzić dowód i sprawdzić założenia (jeszcze tego nie zrobiłem). Ale zdania, do których się odwołujesz, nie są do końca przekonane. W jaki sposób pierwsze zdanie wstępu odnosi się do mojego pytania? Pierwsze zdanie Konkluzji sugeruje, że jeśli ma jednolite spektrum (np. Jest równe ), to twierdzenie nie ma zastosowania. Ale nie jestem w 100% pewien, ponieważ nie widzę tego założenia wyraźnie wyrażonego przed dowodem. IXXI
ameba mówi Przywróć Monikę
Zobacz, jakie pytania mogą zadawać użytkownicy o wysokich przedstawicielach (którzy zazwyczaj tylko na nie udzielają odpowiedzi ) (i podobnie w przypadku innego powiązanego pytania, które przysłało mi tutaj stats.stackexchange.com/questions/122062/… !
javadba,

Odpowiedzi:

11

Odpowiedź na zarówno 1, jak i 2 brzmi „nie”, ale należy interpretować twierdzenie o istnieniu.

Wariancja Ridge Estimator

Niech będzie oszacowaniem grzbietu pod karą , i niech będzie prawdziwym parametrem dla modelu . Niech będą wartościami własnymi . Zgodnie z równaniami Hoerla i Kennarda 4.2–4.5 ryzyko (pod względem oczekiwanej normy błędu ) wynosi kβY=Xβ+ϵλ1,,λpXTXL2β^kβY=Xβ+ϵλ1,,λpXTX
L2

( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. γ1 ^ β -βγ2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
gdzie, o ile wiem, że ma interpretację wariancji wewnętrznego produktu , podczas gdy jest wewnętrznym produktem błędu.(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2

Załóżmy, że , a następnie Niech będzie pochodną ryzyka w / r / t . Ponieważ , dochodzimy do wniosku, że istnieje pewne takie, że R ( k ) = p σ 2 + k 2 β T βXTX=IpR'(k)=2k(1+k)βTβ-(pσ2+k2βTβ)

R(k)=pσ2+k2βTβ(1+k)2.
klimk0+R(k)=-2pσ2<0k>0R(k)<R(0)
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0) .

Autorzy zauważają, że ortogonalność jest najlepsza, na jaką możesz liczyć pod względem ryzyka przy , oraz że wraz ze wzrostem liczby warunków , podejściaX T X lim k 0 + R ( k ) - k=0XTXlimk0+R(k) .

Komentarz

Wydaje się, że istnieje tu paradoks, że jeśli i są stałe, to po prostu szacujemy średnią z sekwencji zmiennych Normal i znamy szacunek bezstronny waniliowy jest dopuszczalne w tym przypadku. Rozwiązuje się to, zauważając, że powyższe rozumowanie stanowi jedynie, że dla ustalonego istnieje minimalizująca wartość . Ale dla każdego możemy zwiększyć ryzyko, powodując, że duży, więc sam ten argument nie pokazuje dopuszczalności oszacowania grzbietu.p=1X(β,σ2)kβTβkβTβ

Dlaczego regresja kalenicy jest zwykle zalecana tylko w przypadku skorelowanych predyktorów?

Wyprowadzenie ryzyka przez H&K pokazuje, że jeśli uważamy, że jest mała, a jeśli konstrukcja jest prawie pojedyncza, to możemy osiągnąć duże zmniejszenie ryzyka oszacowania. Myślę, że regresja kalenicy nie jest powszechnie stosowana, ponieważ oszacowanie OLS jest bezpieczną wartością domyślną, a właściwości niezmienności i bezstronności są atrakcyjne. Kiedy zawiedzie, to zawiedzie szczerze - twoja macierz kowariancji eksploduje. Być może istnieje również punkt filozoficzny / wnioskowy, że jeśli twój projekt jest prawie osobliwy i masz dane obserwacyjne, wówczas podejrzenie interpretacji jako zmiany dla zmian jednostkowych w jest podejrzane - duża macierz kowariancji jest objaw tego. βTβXTXβEYX

Ale jeśli twoim celem jest wyłącznie przewidywanie, obawy wnioskowania przestają obowiązywać i masz mocny argument za użyciem pewnego rodzaju estymatora skurczu.

Andrew M.
źródło
2
Wow, dzięki! Pozwól, że sprawdzę moje rozumienie twojej sekcji „Komentarz”: dla każdego optymalne jest niezerowe, ale jego wartość jest różna dla różnych bet, a żadne ustalone może pokonać dla wszystkich bet, czyli co jest potrzebne do dopuszczalności. Poprawny? Poza tym, czy mógłbyś skomentować moje ogólne pytanie: [Jeśli twierdzenie nie przyjmuje takich założeń, to] dlaczego regresja kalenicy jest zwykle zalecana tylko dla skorelowanych predyktorów, a nigdy nie jest zalecana dla prostej (nie wielokrotnej) regresji? Czy to dlatego, że pozytywny efekt jest empirycznie znany jako zbyt mały, aby przeszkadzać? βkkk=0
ameba mówi Przywróć Monikę
2
H&K konsekwentnie zakłada, że ma pełną rangę. Stwierdzając, że odpowiedź na pytanie nr 1 brzmi „nie”, czy twierdzisz, że ich wyniki są nadal prawdziwe, gdy tak nie jest? XX
whuber
3
@ whuber: Najważniejsze dla ich wyliczenia ryzyka jest to, że szacunek grzbietu , gdzie jest oszacowaniem OLS, a . To oczywiście nie może się utrzymywać, gdy ma niedobór rang. Ale szacunek OLS nie istnieje - więc być może z jakiegokolwiek oszacowania ryzyka skończonych (wziąć wystarczająco duże, a dostaniesz , z ryzykiem ) jest lepsza niż estymator, który nie istnieje? O ile nadal istnieje wyliczenie ryzyka: nie jestem pewien. Potrzebny byłby inny dowód. β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
Andrew M,
3
@amoeba: tak, twoja poprawka wydaje się poprawna. Aby zdominować estymator OLS, potrzebujemy pewnego rodzaju procedury adaptacyjnej , w której jest funkcją danych. W drugim wątku Xi'an skomentował adaptacyjne oszacowanie grzbietu, więc może to być miejsce, w którym można zajrzeć. RE: szacunki grzbietu dla projektów ortogonalnych - dodałem kolejny komentarz w zakresie wskazówek, które wyciągnąłem z ich dowodu. λ
Andrew M,