Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej.
Znam rozwiązanie regresji bez terminu regularyzacji:
Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje się
regression
least-squares
regularization
ridge-regression
użytkownik34790
źródło
źródło
Oprzyjmy się na tym, co wiemy, a mianowicie, że ilekroć macierz modelu wynosi , odpowiedź wektor to , a parametr wektor to , funkcja celun×p X n y p β
(która jest sumą kwadratów reszt) jest minimalizowana, gdy rozwiązuje równania normalneβ
Regresja kalenicy dodaje kolejny termin do funkcji celu (zwykle po standaryzacji wszystkich zmiennych w celu ustalenia ich wspólnej podstawy), prosząc o zminimalizowanie
dla pewnej stałej nieujemnej . Jest to suma kwadratów reszt plus wielokrotność sumy kwadratów samych współczynników (co pokazuje, że ma globalne minimum). Ponieważ , ma dodatni pierwiastek kwadratowy .λ λ≥0 ν2=λ
Rozważmy macierz powiększoną o rzędy odpowiadające razy macierz tożsamości :X ν p×p I
Gdy wektor jest podobnie przedłużany z zerami na końcu do , iloczyn macierzowy w funkcji celu dodaje dodatkowe warunki formy do pierwotnego celu. W związku z tymy p y∗ p (0−νβi)2=λβ2i
Z formy wyrażenia lewej ręki natychmiast wynika, że równania normalne są
Ponieważ do końca dołączyliśmy zera , prawa strona jest taka sama jak . Na lewej stronie dodaje się do oryginalnego . Dlatego nowe równania normalne upraszczająy X′y ν2I=λI X′X
Oprócz tego, że jest koncepcyjnie ekonomiczny - nie są potrzebne żadne nowe manipulacje, aby uzyskać ten wynik - jest to również ekonomicznie obliczeniowe: twoje oprogramowanie do wykonywania zwykłych najmniejszych kwadratów również wykona regresję grzbietu bez żadnych zmian. (Niemniej jednak przy dużych problemach pomocne może być użycie oprogramowania zaprojektowanego do tego celu, ponieważ wykorzysta on specjalną strukturę celu skutecznego uzyskania wyników dla gęsto rozmieszczonych przedziałów , umożliwiając zbadanie, jak różne są odpowiedzi z .)X∗ λ λ
Innym pięknem tego sposobu patrzenia na rzeczy jest to, w jaki sposób może pomóc nam zrozumieć regresję grzbietu. Kiedy chcemy naprawdę zrozumieć regresję, prawie zawsze pomaga myśleć o niej geometrycznie: kolumny stanowią wektory w przestrzeni wektora rzeczywistego o wymiarze . Łącząc z , tym samym przedłużając je z wektorów do wektorów osadzamy w większej przestrzeni , włączając „urojone”, wzajemnie ortogonalne kierunki. Pierwsza kolumnaX p n νI X n n+p Rn Rn+p p X otrzymuje mały wymyślony składnik o rozmiarze , który wydłuża go i przenosi z przestrzeni generowanej przez oryginalne kolumny . Druga, trzecia, ..., są podobnie przedłużane i przenoszone z pierwotnej przestrzeni o tę samą wielkość - ale wszystkie w różnych nowych kierunkach. W związku z tym wszelkie kolinearność występujące w oryginalnych kolumnach zostaną natychmiast rozwiązane. Co więcej, im większe , tym bardziej te nowe wektory zbliżają się do poszczególnychν p pth ν ν p wyobrażone kierunki: stają się coraz bardziej ortonormalne. W związku z tym rozwiązanie równań normalnych stanie się natychmiast możliwe i szybko stanie się stabilne numerycznie, gdy wzrośnie od .ν 0
Ten opis procesu sugeruje kilka nowatorskich i kreatywnych podejść do rozwiązywania problemów, które zaprojektowano z myślą o regresji grzbietu. Na przykład przy użyciu jakichkolwiek środków (takich jak rozkład wariancji opisany przez Belsleya, Kuha i Welscha w ich książce z 1980 r. Na temat diagnostyki regresji , rozdział 3), możesz być w stanie zidentyfikować podgrupy prawie kolinearnych kolumn , gdzie każda podgrupa jest prawie ortogonalny w stosunku do każdego innego. Trzeba tylko przylegają tyle wierszy do (i jedynek do ), ponieważ istnieją elementy w największej grupy, poświęcając jeden nowy wymiar „wyimaginowany” do przemieszczania każdy element grupy z dala od jego rodzeństwa: nie trzeba urojoną wymiary, aby to zrobić.X X y p
źródło
Wyprowadzenie obejmuje rachunek macierzowy, który może być dość żmudny. Chcielibyśmy rozwiązać następujący problem:
Teraz zauważ, że i Razem dochodzimy do warunku pierwszego rzędu Wyizolowanie daje rozwiązanie:
źródło
Ostatnio natknąłem się na to samo pytanie w kontekście P-splajnów, a ponieważ koncepcja jest taka sama, chcę udzielić bardziej szczegółowej odpowiedzi na temat wyprowadzenia estymatora grzbietu.
Zaczynamy od ukaranej funkcji kryterialnej, która różni się od klasycznej funkcji kryterium OLS terminem karania w ostatnim sezonie:
gdzie
Możemy przepisać to kryterium w notacji macierzowej i dalej je rozbić:
Teraz szukamy która minimalizuje nasze kryterium. Między innymi korzystamy z reguły różnicowania macierzy które możemy zastosuj tutaj jako :β ∂xTAx∂x=(A+AT)x=A symmetric2Ax (XTX+λI)∈Rn×n
źródło
W udzielonych odpowiedziach brakuje kilku ważnych rzeczy.
Rozwiązanie dla pochodzi z niezbędnego warunku pierwszego rzędu: co daje . Ale czy to wystarczy? Oznacza to, że rozwiązanie jest globalnym minimum tylko wtedy, gdy jest ściśle wypukły. Można to wykazać jako prawdę.β ∂fridge(β,λ)∂β=0 β=(XTX+λI)−1XTY fridge(β,λ)
Innym sposobem spojrzenia na problem jest dostrzeżenie równoważności między i ograniczone do . OLS oznacza Zwyczajne Najmniejsze kwadraty. Z tej perspektywy to tylko funkcja Lagrangiana używana do znajdowania globalnych minimów wypukłej funkcji celu ograniczona funkcją wypukłą .fridge(β,λ) fOLS(β)=(Y−βTX)T(Y−βTX) ||β||22≤t fridge(β,λ) fOLS(β) ||β||22
Dobre wyjaśnienie tych punktów i wyprowadzenie można znaleźć w tych drobnych notatkach z wykładów: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ
źródło