Według odniesień Księga 1 , Księga 2 i papier .
Wspomniano, że istnieje równoważność między regresją regulowaną (Ridge, LASSO i Elastic Net) a ich formułami ograniczeń.
Patrzyłem również na Cross Validated 1 i Cross Validated 2 , ale nie widzę wyraźnej odpowiedzi pokazującej, że równoważność lub logika.
Moje pytanie brzmi
Jak wykazać tę równoważność za pomocą Karush – Kuhn – Tucker (KKT)?
Poniższe formuły dotyczą regresji Ridge'a.
UWAGA
To pytanie nie jest pracą domową. Tylko w celu lepszego zrozumienia tego tematu.
AKTUALIZACJA
Nie mam jeszcze pomysłu.
Odpowiedzi:
Bardziej techniczną odpowiedzią jest to, że ograniczony problem optymalizacji można zapisać w kategoriach mnożników Lagrange'a. W szczególności Lagrangian związany z ograniczonym problemem optymalizacji dajeL(β)=argminβ⎧⎩⎨∑i=1N(yi−∑j=1pxijβj)2⎫⎭⎬+μ{(1−α)∑j=1p|βj|+α∑j=1pβ2j}
gdzieμ to mnożnik wybrany w celu spełnienia ograniczeń problemu. Warunki pierwszego rzędu (które są wystarczające, ponieważ pracujesz z ładnymi odpowiednimi funkcjami wypukłymi) dla tego problemu optymalizacji można zatem uzyskać przez różnicowanie Lagrangian w odniesieniu do β i ustawienie pochodnych równych 0 (jest to trochę bardziej niuansowe od LASSO część ma nierozróżnialne punkty, ale istnieją metody z analizy wypukłej, aby uogólnić pochodną, aby warunek pierwszego rzędu nadal działał). Oczywiste jest, że te warunki pierwszego rzędu są identyczne z warunkami pierwszego rzędu nieograniczonego problemu, który zapisałeś.
Edycja: Zgodnie z prośbą przedstawię bardziej konkretną analizę regresji grzbietu, ponieważ zawiera ona główne idee, unikając przy tym konieczności radzenia sobie z technicznymi aspektami związanymi z niezróżnicowaniem kary LASSO. Przypomnijmy, że rozwiązujemy problem optymalizacji (w notacji macierzowej):
Niech będzie rozwiązaniem OLS (tzn. Gdy nie ma ograniczeń). Następnie skupię się na sprawie, w której(pod warunkiem, że istnieje), ponieważ w przeciwnym razie ograniczenie jest nieciekawe, ponieważ nie wiąże. Lagrangian dla tego problemu można napisać Następnie różnicując , otrzymujemy warunki pierwszego zamówienia: który jest tylko układem równań liniowych i dlatego można go rozwiązać:βOLS M<∣∣∣∣βOLS∣∣∣∣ L(β)=argminβ{∑i=1Nyi−xTiβ}−μ⋅||β||2≤M 0=−2(∑i=1Nyixi+(∑i=1NxixTi+μI)β) β^=(∑i=1NxixTi+μI)−1(∑i=1Nyixi)
dla pewnego wyboru mnożnika . Następnie mnożnik jest po prostu wybierany, aby ograniczenie było prawdziwe, tzn. Potrzebujemyμ
źródło
Istnieje wielka analiza przez stats_model w jego odpowiedzi .
Próbowałem odpowiedzieć na podobne pytanie w The Proof of Equivalent Formulas of Ridge Regression .
W tej sprawie zajmę się bardziej praktycznym podejściem.t λ
Spróbujmy zobaczyć mapowanie między i w modelach 2.
Jak napisałem i można go zobaczyć ze stats_model w jego analizie, mapowanie zależy od danych. Dlatego wybierzemy konkretną realizację problemu. Jednak kod i szkicowanie rozwiązania doda intuicji do tego, co się dzieje.
Porównamy następujące 2 modele:
Załóżmy, że to rozwiązanie modelu uregulowanego, a to rozwiązanie modelu ograniczonego.x^ x~
Patrzymy na mapowanie od do tak, że . Patrząc na moje rozwiązanie do Solver dla Norm ograniczenie najmniejszych kwadratów można było zobaczyć, że rozwiązywanie ograniczonego modelu polega na rozwiązywaniu uregulowana modelu i znalezienie , który pasuje do (Rzeczywisty kod jest przedstawiony w najmniejszych kwadratów z euklidesowej ( ) Ograniczenie normy ).t λ x = ~ x λ t L 2x^=x~
λ t L2
Uruchomimy więc ten sam solver i dla każdego wyświetlimy optymalną .t λ
Solver zasadniczo rozwiązuje:
Oto nasza Matryca:
A oto nasz wektor:
To jest mapowanie:
Jak widać powyżej, dla wystarczająco wysokiej wartości parametr zgodnie z oczekiwaniami.t λ=0
Powiększanie do zakresu [0, 10]:
Pełny kod jest dostępny w moim repozytorium GitHub Q401212 StackExchange Cross Validated .
źródło