W regresji grzbietu funkcją celu, którą należy zminimalizować, jest:
Czy można to zoptymalizować za pomocą metody mnożnika Lagrange'a? Czy jest to proste różnicowanie?
W regresji grzbietu funkcją celu, którą należy zminimalizować, jest:
Czy można to zoptymalizować za pomocą metody mnożnika Lagrange'a? Czy jest to proste różnicowanie?
Odpowiedzi:
Istnieją dwa sformułowania dotyczące problemu kalenicy. Pierwszy to
z zastrzeżeniem
Ta formuła pokazuje ograniczenie wielkości współczynników regresji. Zwróć uwagę na to, co oznacza to ograniczenie; zmuszamy współczynniki do położenia się w kulce wokół początku o promieniu .s√
Drugi przepis to dokładnie twój problem
który może być postrzegany jako formuła mnożnika Largrange. Zauważ, że tutaj jest parametrem tuningowym, a jego większe wartości doprowadzą do większego skurczu. Możesz przystąpić do różnicowania wyrażenia w odniesieniu do i uzyskać dobrze znany estymator grzbietuλ β
Te dwie formuły są całkowicie równoważne , ponieważ istnieje zgodność jeden do jednego między i .s λ
Pozwól mi trochę rozwinąć. Wyobraź sobie, że jesteś w idealnym ortogonalnym przypadku, . Jest to bardzo uproszczona i nierealistyczna sytuacja, ale możemy dokładniej zbadać estymator, więc proszę o wyrozumiałość. Zastanów się, co dzieje się z równaniem (1). Estymator grzbietu zmniejsza się doX′X=I
podobnie jak w przypadku ortogonalnym estymator OLS podaje . Patrząc na ten składnik teraz otrzymujemyβOLS=X′y
Zauważ, że teraz skurcz jest stały dla wszystkich współczynników. Może to nie mieć miejsca w ogólnym przypadku i rzeczywiście można wykazać, że skurcze będą się znacznie różnić, jeśli w macierzy występują różnice .X′X
Wróćmy jednak do ograniczonego problemu optymalizacji. Przez teorię KKT , o konieczności warunek optymalności jest
więc albo lub (w tym przypadku mówimy, że ograniczenie jest wiążące). Jeśli nie ma kary i wróciliśmy do normalnej sytuacji OLS. Załóżmy zatem, że ograniczenie jest wiążące i znajdujemy się w drugiej sytuacji. Korzystając ze wzoru w (2), mamyλ=0 ∑β2R,j−s=0 λ=0
skąd otrzymujemy
poprzednio twierdzono, że istnieje relacja jeden do jednego. Oczekuję, że trudniej to ustalić w przypadku nieortogonalnym, ale wynik nie zmienia się.
Spójrz jeszcze raz na (2), a zobaczysz, że wciąż brakuje nam . Aby uzyskać jego optymalną wartość, możesz albo użyć weryfikacji krzyżowej, albo spojrzeć na ślad grzbietu. Druga metoda polega na zbudowaniu sekwencji w (0,1) i sprawdzeniu, jak zmieniają się szacunki. Następnie wybierz która je stabilizuje. Ta metoda została przy okazji zasugerowana w drugim z poniższych odnośników i jest najstarsza.λ λ λ
Bibliografia
źródło
Moja książka Regression Modeling Strategies zagłębia się w wykorzystanie skutecznego AIC do wyboru . Wynika to z prawdopodobieństwa zaryzykowanego dziennika i efektywnego stopnia swobody, przy czym ten ostatni jest funkcją tego, o ile wariancje są zmniejszone przez karanie. Prezentacja na ten temat jest tutaj . Pakiet R znajduje która optymalizuje efektywny AIC, a także dopuszcza wiele parametrów kary (np. Jeden dla głównych efektów liniowych, jeden dla głównych efektów nieliniowych, jeden dla efektów interakcji liniowych i jeden dla efektów interakcji nieliniowych).λ β^ λ
rms
pentrace
źródło
Nie robię tego analitycznie, ale raczej numerycznie. Zazwyczaj rysuję RMSE vs. λ jako takie:
Rysunek 1. RMSE i stała λ lub alfa.
źródło