Szukam literatury na temat negatywnej regresji kalenicy .
W skrócie, jest to uogólnienie regresji liniowej grzbiet wykluczających we wzorze
Przypadek pozytywny ma ładną teorię: jako funkcję straty, jako ograniczenie, jako wcześniejsze Bayesa ... ale czuję się zagubiony w wersji negatywnej z tylko powyższą formułą. To się przydaje do tego, co robię, ale nie potrafię tego jasno zinterpretować.
Czy znasz jakiś poważny tekst wprowadzający o grzebieniu negatywnym? Jak można to interpretować?
regression
regularization
ridge-regression
Benoit Sanchez
źródło
źródło
Odpowiedzi:
Oto geometryczna ilustracja tego, co dzieje się z negatywnym grzbietem.
Rozważmy teraz co się dzieje, gdy , gdzie to największa pojedyncza wartość . W przypadku bardzo dużych ujemnych lambd jest oczywiście bliski zeru. Kiedy lambda zbliża się do , termin otrzymuje jedną wartość pojedynczą zbliżającą się do zera, co oznacza, że odwrotność ma jedną wartość osobliwą zbliżoną do minus nieskończoności. Ta pojedyncza wartość odpowiada pierwszemu głównemu składnikowi , więc w limicie dostajemy wskazując w kierunku PC1, ale z wartością bezwzględną rosnącą do nieskończoności.λ∈(−∞,−s2max) smax X β^λ −s2max (X⊤X+λI) X β^λ
Naprawdę fajne jest to, że można narysować go na tej samej figurze w ten sam sposób: bety są podawane przez punkty, w których koła dotykają elips od środka :
Kiedy , stosuje się podobną logikę, pozwalającą kontynuować ścieżkę grzbietu po drugiej stronie estymatora OLS. Teraz koła dotykają elips z zewnątrz. W limit, beta zbliża się do kierunku PC2 (ale dzieje się to daleko poza tym szkicem):λ∈(−s2min,0]
Zakres jest czymś w rodzaju luki energetycznej : estymatory nie żyją na tej samej krzywej.(−s2max,−s2min)
AKTUALIZACJA: W komentarzach @MartinL wyjaśnia, że dla strata nie ma minimum, ale maksimum. I to maksimum jest podane przez . Dlatego ta sama geometryczna konstrukcja z dotykiem koła / elipsy nadal działa: wciąż szukamy punktów o zerowym gradiencie. Kiedy , strata ma minimum i jest wyrażane przez , dokładnie tak jak normalnie case.λ<−s2max Lλ β^λ −s2min<λ≤0 Lλ β^λ λ>0
Ale kiedy , strata nie ma wartości maksymalnej ani minimalnej; odpowiada punktowi siodłowemu. To wyjaśnia „lukę energetyczną”.−s2max<λ<−s2min Lλ β^λ
naturalnie wynika z określonego ograniczonym regresji grzbiet znajduje się granica „jednostkową wariancją” regresji grzbiet estymatora gdy . Jest to związane z tym, co znane jest w literaturze chemometrycznej jako „regresja kontinuum”, patrz moja odpowiedź w powiązanym wątku.λ∈(−∞,−s2max) λ→∞
można potraktować w taki sam sposób, jak : utrata czynności pozostanie takie same i estymator grzbiet zapewnia jego minimum.λ∈(−s2min,0] λ>0
źródło