Jak uzyskać rozwiązanie regresji kalenicy?

40

Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej.

Znam rozwiązanie regresji bez terminu regularyzacji:

β=(XTX)1XTy.

Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje sięλβ22

β=(XTX+λI)1XTy.
użytkownik34790
źródło

Odpowiedzi:

23

Wystarczy zmodyfikować funkcję straty przez dodanie kary. Pod względem macierzowym początkowa funkcja straty kwadratowej staje się

(YXβ)T(YXβ)+λβTβ.
Wyprowadzanie w odniesieniu do β prowadzi do normalnego równania
XTY=(XTX+λI)β
co prowadzi do estymacji Ridge.
Jasio
źródło
1
Dlaczego pochodna λβTβ jest równa λIβ
użytkownik34790
4
@ user34790 To nie jest. Jest równy 2λβ . Ale 2 anuluje z podobnymi 2 na innych warunkach. Oczywiście, współczynnik I jest jak współczynnik 1 w „zwykłej” algebrze, możesz go pomnożyć w dowolnym miejscu bez zmiany czegokolwiek.
Bill
4
@ bill: tutaj potrzebujesz aby uzyskać macierz o właściwym wymiarze, więc dodawanie działa z : jest tylko skalaremIXTXλ
Henry
47

Oprzyjmy się na tym, co wiemy, a mianowicie, że ilekroć macierz modelu wynosi , odpowiedź wektor to , a parametr wektor to , funkcja celun×pXnypβ

f(β)=(yXβ)(yXβ)

(która jest sumą kwadratów reszt) jest minimalizowana, gdy rozwiązuje równania normalneβ

(XX)β=Xy.

Regresja kalenicy dodaje kolejny termin do funkcji celu (zwykle po standaryzacji wszystkich zmiennych w celu ustalenia ich wspólnej podstawy), prosząc o zminimalizowanie

(yXβ)(yXβ)+λββ

dla pewnej stałej nieujemnej . Jest to suma kwadratów reszt plus wielokrotność sumy kwadratów samych współczynników (co pokazuje, że ma globalne minimum). Ponieważ , ma dodatni pierwiastek kwadratowy .λλ0ν2=λ

Rozważmy macierz powiększoną o rzędy odpowiadające razy macierz tożsamości :Xνp×pI

X=(XνI)

Gdy wektor jest podobnie przedłużany z zerami na końcu do , iloczyn macierzowy w funkcji celu dodaje dodatkowe warunki formy do pierwotnego celu. W związku z tymypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

Z formy wyrażenia lewej ręki natychmiast wynika, że ​​równania normalne są

(XX)β=Xy.

Ponieważ do końca dołączyliśmy zera , prawa strona jest taka sama jak . Na lewej stronie dodaje się do oryginalnego . Dlatego nowe równania normalne upraszczająyXyν2I=λIXX

(XX+λI)β=Xy.

Oprócz tego, że jest koncepcyjnie ekonomiczny - nie są potrzebne żadne nowe manipulacje, aby uzyskać ten wynik - jest to również ekonomicznie obliczeniowe: twoje oprogramowanie do wykonywania zwykłych najmniejszych kwadratów również wykona regresję grzbietu bez żadnych zmian. (Niemniej jednak przy dużych problemach pomocne może być użycie oprogramowania zaprojektowanego do tego celu, ponieważ wykorzysta on specjalną strukturę celu skutecznego uzyskania wyników dla gęsto rozmieszczonych przedziałów , umożliwiając zbadanie, jak różne są odpowiedzi z .)Xλλ

Innym pięknem tego sposobu patrzenia na rzeczy jest to, w jaki sposób może pomóc nam zrozumieć regresję grzbietu. Kiedy chcemy naprawdę zrozumieć regresję, prawie zawsze pomaga myśleć o niej geometrycznie: kolumny stanowią wektory w przestrzeni wektora rzeczywistego o wymiarze . Łącząc z , tym samym przedłużając je z wektorów do wektorów osadzamy w większej przestrzeni , włączając „urojone”, wzajemnie ortogonalne kierunki. Pierwsza kolumnaXpnνIXnn+pRnRn+ppXotrzymuje mały wymyślony składnik o rozmiarze , który wydłuża go i przenosi z przestrzeni generowanej przez oryginalne kolumny . Druga, trzecia, ..., są podobnie przedłużane i przenoszone z pierwotnej przestrzeni o tę samą wielkość - ale wszystkie w różnych nowych kierunkach. W związku z tym wszelkie kolinearność występujące w oryginalnych kolumnach zostaną natychmiast rozwiązane. Co więcej, im większe , tym bardziej te nowe wektory zbliżają się do poszczególnychνppthννpwyobrażone kierunki: stają się coraz bardziej ortonormalne. W związku z tym rozwiązanie równań normalnych stanie się natychmiast możliwe i szybko stanie się stabilne numerycznie, gdy wzrośnie od .ν0

Ten opis procesu sugeruje kilka nowatorskich i kreatywnych podejść do rozwiązywania problemów, które zaprojektowano z myślą o regresji grzbietu. Na przykład przy użyciu jakichkolwiek środków (takich jak rozkład wariancji opisany przez Belsleya, Kuha i Welscha w ich książce z 1980 r. Na temat diagnostyki regresji , rozdział 3), możesz być w stanie zidentyfikować podgrupy prawie kolinearnych kolumn , gdzie każda podgrupa jest prawie ortogonalny w stosunku do każdego innego. Trzeba tylko przylegają tyle wierszy do (i jedynek do ), ponieważ istnieją elementy w największej grupy, poświęcając jeden nowy wymiar „wyimaginowany” do przemieszczania każdy element grupy z dala od jego rodzeństwa: nie trzeba urojoną wymiary, aby to zrobić.XXyp

Whuber
źródło
2
Ostatnim autorem książki jest Welsch, a nie walijski.
Mark L. Stone,
1
Whoa, to po prostu oszalało. Czy jest jakaś dyskusja na temat tego, co się dzieje, gdy jest to uogólnione poza modelami liniowymi, tj. Na glm's? Kara nie powinna być taka sama jak regresja kalenicy ... ale ta interpretacja sugeruje, że nadal byłby potencjalnym użytecznym estymatorem!
Cliff AB,
2
@Cliff To bardzo interesująca sugestia. Ponieważ jednak oszacowania GLM zależą w bardziej skomplikowany sposób od a ich estymatory zwykle nie mogą być uwzględnione w postaci tak jak w przypadku OLS (gdzie i ), ustalenie użytecznej zależności między narzuceniem funkcji karnej a modyfikacją kolumn może być trudne . W szczególności nie jest jasne, w jaki sposób należy zwiększyć wartości , aby to zadziałało. X
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber
1
Tak, trzeba zastanowić się, jaka jest kara, ale nie martwię się tym. Pomysł użycia nie jest na ogół łatwy ... z wyjątkiem być może regresji logistycznej, w której moglibyśmy dodać dwie ; jeden z zer i jeden z nich. To powiększenie byłoby wówczas bardziej ogólną wersją „estymatora dwumianowego +2” (istnieje bardziej odpowiednia nazwa dla tego estymatora, na który się wygasam, to jest w zasadzie, gdy szacujesz podstawie rozkładu dwumianowego za pomocą średniej tylnej jako szacunek z jednolitym wcześniejszym na ). y ypp
Cliff AB,
@ Mark Dziękujemy za korektę. Możesz powiedzieć, że wychodzę z pamięci ... :-).
whuber
20

Wyprowadzenie obejmuje rachunek macierzowy, który może być dość żmudny. Chcielibyśmy rozwiązać następujący problem:

minβ(YβTX)T(YβTX)+λβTβ

Teraz zauważ, że i Razem dochodzimy do warunku pierwszego rzędu Wyizolowanie daje rozwiązanie:

(YβTX)T(YβTX)β=2XT(YβTX)
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λI)1XTY.
pthesling
źródło
9

Ostatnio natknąłem się na to samo pytanie w kontekście P-splajnów, a ponieważ koncepcja jest taka sama, chcę udzielić bardziej szczegółowej odpowiedzi na temat wyprowadzenia estymatora grzbietu.

Zaczynamy od ukaranej funkcji kryterialnej, która różni się od klasycznej funkcji kryterium OLS terminem karania w ostatnim sezonie:

CriterionRidge=i=1n(yixiTβ)2+λj=1pβj2

gdzie

  • p= ilość zmiennych zmiennych używanych w modelu
  • xiTβ= twój standardowy predyktor liniowy
  • pierwszy summand reprezentuje MSE (kwadratowe odchylenie prognozy od wartości rzeczywistej), które chcemy jak zwykle zminimalizować
  • drugi summand reprezentuje karę, jaką stosujemy wobec współczynników. Tutaj znajdujemy się w kontekście grzbietu, który implikuje Euklidesową miarę odległości, a zatem stopień 2 w okresie kary. W przypadku Penalizacji Lasso zastosowalibyśmy stopień 1 i otrzymalibyśmy zupełnie inny estymator.

Możemy przepisać to kryterium w notacji macierzowej i dalej je rozbić:

CriterionRidge=(yXβ)T(yXβ)+λβTβ

=yTyβTXTyyTXβ+βTxTXβ+λβTβ

=yTyβTXTyβTXTy+βTXTXβ+βTλIβ gdzie jest matrycą tożsamościI

=yTy2βTXTy+βT(XTX+λI)β

Teraz szukamy która minimalizuje nasze kryterium. Między innymi korzystamy z reguły różnicowania macierzy które możemy zastosuj tutaj jako : βxTAxx=(A+AT)x=A symmetric2Ax(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy

Jann Goschenhofer
źródło
@Jahn, czy możesz wyjaśnić, w jaki sposób stał się ? Myślę, że właśnie zastosowałeś transpozycję, prawda. Ale nie można po prostu zastosować transpozycji jednego terminu bez zastosowania go do wszystkich równań. Czego tu brakuje?
yTXβ
βTXTy
teoretyk
1
@teateist Transponowany skalar to ten sam skalar.
Konstantin,
2

W udzielonych odpowiedziach brakuje kilku ważnych rzeczy.

  1. Rozwiązanie dla pochodzi z niezbędnego warunku pierwszego rzędu: co daje . Ale czy to wystarczy? Oznacza to, że rozwiązanie jest globalnym minimum tylko wtedy, gdy jest ściśle wypukły. Można to wykazać jako prawdę.βfridge(β,λ)β=0β=(XTX+λI)1XTYfridge(β,λ)

  2. Innym sposobem spojrzenia na problem jest dostrzeżenie równoważności między i ograniczone do . OLS oznacza Zwyczajne Najmniejsze kwadraty. Z tej perspektywy to tylko funkcja Lagrangiana używana do znajdowania globalnych minimów wypukłej funkcji celu ograniczona funkcją wypukłą .fridge(β,λ)fOLS(β)=(YβTX)T(YβTX)||β||22tfridge(β,λ)fOLS(β)||β||22

Dobre wyjaśnienie tych punktów i wyprowadzenie można znaleźć w tych drobnych notatkach z wykładów: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ

Davor Josipovic
źródło