Regularyzowana regresja liniowa vs. regresja RKHS

9

Badam różnicę między regularyzacją w regresji RKHS a regresją liniową, ale trudno mi zrozumieć kluczową różnicę między nimi.

Biorąc pod uwagę pary wejścia-wyjścia , chcę oszacować funkcję w następujący sposób gdzie jest funkcją jądra. Współczynniki można znaleźć, rozwiązując gdzie, z pewnym nadużyciem notacji, i, j wpis w macierzy K jądra to {\ displaystyle K (x_ {i}, x_ {j})} . To daje \ początek {równanie} \ alpha ^ * = (K + \ lambda nI) ^ {- 1} Y. \ end {równanie}(xi,yi)f()

f(x)u(x)=i=1mαiK(x,xi),
K(,)αm
minαRn1nYKαRn2+λαTKα,
i,jKK(xi,xj)
α=(K+λnI)1Y.
Alternatywnie możemy potraktować problem jako normalny problem regresji kalenicy / regresji liniowej:
minαRn1nYKαRn2+λαTα,
z rozwiązaniem
α=(KTK+λnI)1KTY.

Jaka byłaby zasadnicza różnica między tymi dwoma podejściami i ich rozwiązaniami?

MthQ
źródło
@MThQ - Czy Twój opis „normalnej” regresji grzbietu nadal nie działa w dual? Żeby wyjaśnić, że moim zdaniem zakłada się, że normalna regresja kalenicy działa w pierwotnej postaci (w przypadku wyraźnej reprezentacji cech).
rnoodle

Odpowiedzi:

5

Jak zapewne zauważyliście przy zapisywaniu problemów z optymalizacją, jedyną różnicą w minimalizacji jest to, której normy Hilberta należy użyć do penalizacji. Oznacza to, że do oszacowania, jakie „duże” wartości służą do celów penalizacji. W ustawieniach RKHS używamy produktu wewnętrznego RKHS, , podczas gdy regresja kalenicy karze w odniesieniu do normy euklidesowej.ααtKα

Interesującą konsekwencją teoretyczna jest jak każdy efekty metoda widmo jądra odtwarzające . Z teorii RKHS wynika, że jest symetrycznym dodatnim określonym. Twierdzeniem spektralnym możemy napisać gdzie jest macierzą diagonalną wartości własnych, a jest macierzą ortonormalną wektorów własnych. W związku z tym w ustawieniu RKHS Tymczasem w ustawieniu regresji Ridge zwróć uwagę, że symetrycznie, KKK=UtDUDU

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Niech spektrum będzie . W regresji RKHS wartości własne są stabilizowane przez . W regresji Ridge'a mamy . W rezultacie RKHS jednolicie modyfikuje wartości własne, podczas gdy Ridge dodaje większą wartość, jeśli odpowiadające mu jest mniejsze.Kν1,,νnνiνi+λnνiνi+λn/νiνi

W zależności od wyboru jądra, dwie oceny mogą być blisko siebie lub daleko od siebie. Odległość w sensie operatora będzie wynosić jednak nadal ograniczone dla danegoα

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
Y, więc dwa estymatory nie mogą być dowolnie daleko od siebie. Stąd, jeśli twoje jądro jest zbliżone do tożsamości, to w większości podejść będzie niewielka różnica. Jeśli twoje jądra są bardzo różne, oba podejścia mogą nadal prowadzić do podobnych rezultatów.

W praktyce trudno jednoznacznie stwierdzić, czy jedno jest lepsze od drugiego w danej sytuacji. Ponieważ minimalizujemy błąd kwadratu podczas reprezentowania danych w kategoriach funkcji jądra, skutecznie wybieramy najlepszą krzywą regresji z odpowiedniej przestrzeni funkcji Hilberta. Dlatego karanie w odniesieniu do wewnętrznego produktu RKHS wydaje się naturalnym sposobem postępowania.

Adam B. Kashlak
źródło
1
Czy masz na to referencje?
rnoodle