Jak znaleźć współczynniki regresji w regresji kalenicowej?

14

W regresji grzbietu funkcją celu, którą należy zminimalizować, jest:

RSS+λβj2.

Czy można to zoptymalizować za pomocą metody mnożnika Lagrange'a? Czy jest to proste różnicowanie?

Minaj
źródło
1
Jaki jest związek między tytułem (który koncentruje się na ) a pytaniem (które wydaje się dotyczyć tylko )? Obawiam się, że „optymalizacja” mogłaby mieć wyraźnie różne interpretacje w zależności od tego, które zmienne są uważane za te, które można zmieniać, a które należy naprawić. β jλβj
whuber
1
dzięki zmodyfikował pytanie. Czytałem, że została znaleziona przez krzyżową weryfikację - ale uważam, że oznacza to, że masz już i używasz różnych danych, aby znaleźć najlepsze Pytanie brzmi - jak znaleźć w pierwsze miejsce, gdy jest nieznana? β j λ β j λλβjλβjλ
Minaj

Odpowiedzi:

22

Istnieją dwa sformułowania dotyczące problemu kalenicy. Pierwszy to

βR=argminβ(yXβ)(yXβ)

z zastrzeżeniem

jβj2s.

Ta formuła pokazuje ograniczenie wielkości współczynników regresji. Zwróć uwagę na to, co oznacza to ograniczenie; zmuszamy współczynniki do położenia się w kulce wokół początku o promieniu .s

Drugi przepis to dokładnie twój problem

βR=argminβ(yXβ)(yXβ)+λβj2

który może być postrzegany jako formuła mnożnika Largrange. Zauważ, że tutaj jest parametrem tuningowym, a jego większe wartości doprowadzą do większego skurczu. Możesz przystąpić do różnicowania wyrażenia w odniesieniu do i uzyskać dobrze znany estymator grzbietuλβ

(1)βR=(XX+λI)1Xy

Te dwie formuły są całkowicie równoważne , ponieważ istnieje zgodność jeden do jednego między i .sλ

Pozwól mi trochę rozwinąć. Wyobraź sobie, że jesteś w idealnym ortogonalnym przypadku, . Jest to bardzo uproszczona i nierealistyczna sytuacja, ale możemy dokładniej zbadać estymator, więc proszę o wyrozumiałość. Zastanów się, co dzieje się z równaniem (1). Estymator grzbietu zmniejsza się doXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

podobnie jak w przypadku ortogonalnym estymator OLS podaje . Patrząc na ten składnik teraz otrzymujemyβOLS=Xy

(2)βR=βOLS1+λ

Zauważ, że teraz skurcz jest stały dla wszystkich współczynników. Może to nie mieć miejsca w ogólnym przypadku i rzeczywiście można wykazać, że skurcze będą się znacznie różnić, jeśli w macierzy występują różnice .XX

Wróćmy jednak do ograniczonego problemu optymalizacji. Przez teorię KKT , o konieczności warunek optymalności jest

λ(βR,j2s)=0

więc albo lub (w tym przypadku mówimy, że ograniczenie jest wiążące). Jeśli nie ma kary i wróciliśmy do normalnej sytuacji OLS. Załóżmy zatem, że ograniczenie jest wiążące i znajdujemy się w drugiej sytuacji. Korzystając ze wzoru w (2), mamyλ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

skąd otrzymujemy

λ=βOLS,j2s1

poprzednio twierdzono, że istnieje relacja jeden do jednego. Oczekuję, że trudniej to ustalić w przypadku nieortogonalnym, ale wynik nie zmienia się.

Spójrz jeszcze raz na (2), a zobaczysz, że wciąż brakuje nam . Aby uzyskać jego optymalną wartość, możesz albo użyć weryfikacji krzyżowej, albo spojrzeć na ślad grzbietu. Druga metoda polega na zbudowaniu sekwencji w (0,1) i sprawdzeniu, jak zmieniają się szacunki. Następnie wybierz która je stabilizuje. Ta metoda została przy okazji zasugerowana w drugim z poniższych odnośników i jest najstarsza.λλλ

Bibliografia

Hoerl, Arthur E. i Robert W. Kennard. „Regresja Ridge'a: błędne oszacowanie problemów nieortogonalnych”. Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E. i Robert W. Kennard. „Regresja Ridge'a: zastosowania do nieortogonalnych problemów”. Technometrics 12.1 (1970): 69-82.

JohnK
źródło
2
@ Regresja Minaj Ridge ma stały skurcz dla wszystkich współczynników (innych niż punkt przecięcia). Dlatego istnieje tylko jeden mnożnik.
JohnK
2
@amoeba To jest sugestia Hoerla i Kennarda, ludzi, którzy wprowadzili regresję grzbietu w latach siedemdziesiątych. W oparciu o ich doświadczenie - i moje - współczynniki ustabilizują się w tym przedziale nawet przy ekstremalnych stopniach wielokoliniowości. Oczywiście jest to strategia empiryczna i dlatego nie gwarantuje się, że będzie działała przez cały czas.
JohnK,
2
Możesz także wykonać metodę pseudoobserwacji i uzyskać szacunki z niczym bardziej skomplikowanym niż prosty program regresji metodą najmniejszych kwadratów. Możesz także zbadać efekt zmiany w podobny sposób. λ
Glen_b
2
@amoeba To prawda, że ​​grzbiet nie jest niezmienny w skali, dlatego powszechną praktyką jest wcześniejsza standaryzacja danych. Podałem odpowiednie referencje na wypadek, gdybyś chciał rzucić okiem. Są niezwykle interesujące i niezbyt techniczne.
JohnK,
2
@JohnK w efekcie regresja kalenicy zmniejsza każdy o inną wartość, więc skurcz nie jest stały, mimo że istnieje tylko jeden parametr kurczenia . βλ
Frank Harrell,
4

Moja książka Regression Modeling Strategies zagłębia się w wykorzystanie skutecznego AIC do wyboru . Wynika to z prawdopodobieństwa zaryzykowanego dziennika i efektywnego stopnia swobody, przy czym ten ostatni jest funkcją tego, o ile wariancje są zmniejszone przez karanie. Prezentacja na ten temat jest tutaj . Pakiet R znajduje która optymalizuje efektywny AIC, a także dopuszcza wiele parametrów kary (np. Jeden dla głównych efektów liniowych, jeden dla głównych efektów nieliniowych, jeden dla efektów interakcji liniowych i jeden dla efektów interakcji nieliniowych).λβ^rmspentraceλ

Frank Harrell
źródło
1
+1. Co sądzisz o używaniu pomijanego błędu CV, obliczonego według jawnej formuły (tj. Bez faktycznego wykonywania CV), do wybrania ? Czy masz pojęcie o tym, jak w praktyce porównuje się je do „skutecznego AIC”? λ
ameba mówi Przywróć Monikę
Nie studiowałem tego. LOOCV wymaga wielu obliczeń.
Frank Harrell,
Nie, jeśli użyto jawnej formuły: stats.stackexchange.com/questions/32542 .
ameba mówi Przywróć Monikę
1
Ta formuła działa w szczególnym przypadku OLS, a nie w przypadku maksymalnego prawdopodobieństwa w ogóle. Ale istnieje przybliżona formuła wykorzystująca wartości resztkowe. Zdaję sobie jednak sprawę, że w tej dyskusji mówimy głównie o OLS.
Frank Harrell,
1

Nie robię tego analitycznie, ale raczej numerycznie. Zazwyczaj rysuję RMSE vs. λ jako takie:

wprowadź opis zdjęcia tutaj

Rysunek 1. RMSE i stała λ lub alfa.

Lennart
źródło
Czy to oznacza, że ​​naprawiasz pewną wartość a następnie różnicujesz wyrażenie, aby znaleźć , po czym RMSE i robisz proces od nowa dla nowych wartości ? λβjλ
Minaj,