Zrozumienie negatywnej regresji kalenicy

12

Szukam literatury na temat negatywnej regresji kalenicy .

W skrócie, jest to uogólnienie regresji liniowej grzbiet wykluczających λ we wzorze

β^=(XX+λI)1Xy.
Przypadek pozytywny ma ładną teorię: jako funkcję straty, jako ograniczenie, jako wcześniejsze Bayesa ... ale czuję się zagubiony w wersji negatywnej z tylko powyższą formułą. To się przydaje do tego, co robię, ale nie potrafię tego jasno zinterpretować.

Czy znasz jakiś poważny tekst wprowadzający o grzebieniu negatywnym? Jak można to interpretować?

Benoit Sanchez
źródło
1
Nie znam żadnego tekstu wprowadzającego, który mówi o tym, ale to źródło może być pouczające, szczególnie dyskusja na dole strony 18: jstor.org/stable/4616538?seq=1#page_scan_tab_contents
Ryan Simmons
1
W przypadku, gdy ten link umrze w przyszłości, pełny cytat brzmi: Björkström, A. i Sundberg, R. „Ogólny pogląd na regresję kontinuum”. Scandinavian Journal of Statistics, 26: 1 (1999): s. 17–30
Ryan Simmons
2
Wielkie dzięki. Daje to jasną interpretację grzbietu za pomocą CR, gdy (Największa wartość własna macierzy kowariancji). Wciąż szukam interpretacji z λ > - λ 1 ...λ<λ1λ>λ1
Benoit Sanchez
Należy zauważyć w tym rozwoju regresji kalenicowej z regularyzacji Tichonowa, że ​​regularyzacja Tichonowa staje się α 2 I dla regresji kalenicowej. Następnie α 2 jest zwykle zastępuje Î . Jedynym sposobem uczynienia tego ujemnym jest wyobrażenie α , tj. Wielokrotność i = ΓTΓα2Iα2λα . OK, a teraz co? Gdzie chcesz z tym iść? i=1
Carl
Wspomniana negatywna grań: stats.stackexchange.com/questions/328630/... z niektórymi linkami
kjetil b halvorsen 15.04.2018

Odpowiedzi:

12

Oto geometryczna ilustracja tego, co dzieje się z negatywnym grzbietem.

β^λ=(XX+λI)1Xy
λ[0,)
Lλ=yXβ2+λβ2.
λ[0,)

wprowadź opis zdjęcia tutaj

Rozważmy teraz co się dzieje, gdy , gdzie to największa pojedyncza wartość . W przypadku bardzo dużych ujemnych lambd jest oczywiście bliski zeru. Kiedy lambda zbliża się do , termin otrzymuje jedną wartość pojedynczą zbliżającą się do zera, co oznacza, że ​​odwrotność ma jedną wartość osobliwą zbliżoną do minus nieskończoności. Ta pojedyncza wartość odpowiada pierwszemu głównemu składnikowi , więc w limicie dostajemy wskazując w kierunku PC1, ale z wartością bezwzględną rosnącą do nieskończoności.λ(,smax2)smaxXβ^λsmax2(XX+λI)Xβ^λ

Naprawdę fajne jest to, że można narysować go na tej samej figurze w ten sam sposób: bety są podawane przez punkty, w których koła dotykają elips od środka :

wprowadź opis zdjęcia tutaj

Kiedy , stosuje się podobną logikę, pozwalającą kontynuować ścieżkę grzbietu po drugiej stronie estymatora OLS. Teraz koła dotykają elips z zewnątrz. W limit, beta zbliża się do kierunku PC2 (ale dzieje się to daleko poza tym szkicem):λ(smin2,0]

wprowadź opis zdjęcia tutaj

Zakres jest czymś w rodzaju luki energetycznej : estymatory nie żyją na tej samej krzywej.(smax2,smin2)

AKTUALIZACJA: W komentarzach @MartinL wyjaśnia, że ​​dla strata nie ma minimum, ale maksimum. I to maksimum jest podane przez . Dlatego ta sama geometryczna konstrukcja z dotykiem koła / elipsy nadal działa: wciąż szukamy punktów o zerowym gradiencie. Kiedy , strata ma minimum i jest wyrażane przez , dokładnie tak jak normalnie case.λ<smax2Lλβ^λsmin2<λ0Lλβ^λλ>0

Ale kiedy , strata nie ma wartości maksymalnej ani minimalnej; odpowiada punktowi siodłowemu. To wyjaśnia „lukę energetyczną”.smax2<λ<smin2Lλβ^λ


naturalnie wynika z określonego ograniczonym regresji grzbiet znajduje się granica „jednostkową wariancją” regresji grzbiet estymatora gdy . Jest to związane z tym, co znane jest w literaturze chemometrycznej jako „regresja kontinuum”, patrz moja odpowiedź w powiązanym wątku.λ(,smax2)λ

można potraktować w taki sam sposób, jak : utrata czynności pozostanie takie same i estymator grzbiet zapewnia jego minimum.λ(smin2,0]λ>0

ameba
źródło
1
Dziękuję za ciekawe wykresy. Gdy , przedstawione rozwiązanie jest globalnym maksimum funkcji kosztu, a nie globalnym minimum. Podobnie, gdy , wykreślony punkt powinien być punktem siodłowym funkcji kosztu. λ<smax2smax2<λ<0
Martin L
1
Uwzględnij tylko kwadratowe terminy w funkcji kosztu. Można je zapisać jako Niech , wtedy macierz w nawiasach ma tylko ujemne wartości własne. Niech , a macierz ma zarówno dodatnie, jak i ujemne wartości własne. Te wartości własne wpływają na to, czy punkt jest punktem siodłowym, minimum lub maksimum funkcji kosztu.
βT(XTX+λI)β.
λ<smax2smax2<λ<0
Martin L
1
To bardzo pomocne, wielkie dzięki. Dokonałem aktualizacji mojej odpowiedzi.
ameba
1
Dziękuję Ci. W szczególności dla uświadomienia sobie, że punkt siodłowy obowiązuje tylko wtedy, gdy . Gdy , rozwiązanie jest rzeczywiście wciąż globalnym minimum, od tego czasu jest zdecydowanie dodatnia. Mój wcześniejszy komentarz był zatem częściowo niepoprawny. smax2<λ<smin2λ>smin2XTX+λI
Martin L