Badam różnicę między regularyzacją w regresji RKHS a regresją liniową, ale trudno mi zrozumieć kluczową różnicę między nimi.
Biorąc pod uwagę pary wejścia-wyjścia , chcę oszacować funkcję w następujący sposób gdzie jest funkcją jądra. Współczynniki można znaleźć, rozwiązując gdzie, z pewnym nadużyciem notacji, i, j wpis w macierzy K jądra to {\ displaystyle K (x_ {i}, x_ {j})} . To daje \ początek {równanie} \ alpha ^ * = (K + \ lambda nI) ^ {- 1} Y. \ end {równanie}
Alternatywnie możemy potraktować problem jako normalny problem regresji kalenicy / regresji liniowej:
z rozwiązaniem
Jaka byłaby zasadnicza różnica między tymi dwoma podejściami i ich rozwiązaniami?
Odpowiedzi:
Jak zapewne zauważyliście przy zapisywaniu problemów z optymalizacją, jedyną różnicą w minimalizacji jest to, której normy Hilberta należy użyć do penalizacji. Oznacza to, że do oszacowania, jakie „duże” wartości służą do celów penalizacji. W ustawieniach RKHS używamy produktu wewnętrznego RKHS, , podczas gdy regresja kalenicy karze w odniesieniu do normy euklidesowej.α αtKα
Interesującą konsekwencją teoretyczna jest jak każdy efekty metoda widmo jądra odtwarzające . Z teorii RKHS wynika, że jest symetrycznym dodatnim określonym. Twierdzeniem spektralnym możemy napisać gdzie jest macierzą diagonalną wartości własnych, a jest macierzą ortonormalną wektorów własnych. W związku z tym w ustawieniu RKHS Tymczasem w ustawieniu regresji Ridge zwróć uwagę, że symetrycznie,K K K=UtDU D U
W zależności od wyboru jądra, dwie oceny mogą być blisko siebie lub daleko od siebie. Odległość w sensie operatora będzie wynosić jednak nadal ograniczone dla danegoα
W praktyce trudno jednoznacznie stwierdzić, czy jedno jest lepsze od drugiego w danej sytuacji. Ponieważ minimalizujemy błąd kwadratu podczas reprezentowania danych w kategoriach funkcji jądra, skutecznie wybieramy najlepszą krzywą regresji z odpowiedniej przestrzeni funkcji Hilberta. Dlatego karanie w odniesieniu do wewnętrznego produktu RKHS wydaje się naturalnym sposobem postępowania.
źródło