Regularyzowana regresja liniowa vs. regresja RKHS

Badam różnicę między regularyzacją w regresji RKHS a regresją liniową, ale trudno mi zrozumieć kluczową różnicę między nimi.

Biorąc pod uwagę pary wejścia-wyjścia , chcę oszacować funkcję w następujący sposób gdzie jest funkcją jądra. Współczynniki można znaleźć, rozwiązując gdzie, z pewnym nadużyciem notacji, wpis w macierzy jądra to . To daje $(x_i,y_i)$ $f(\cdot)$

f (x) \approx u (x) = \sum_{i = 1}^{m} α_{i} K (x, x_{i}),

$\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}$

K (\cdot, \cdot)

$K(\cdot,\cdot)$

α_{m}

$\alpha_m$

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} K α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}$

i, j

$i,j$

K

$K$

K (x_{i}, x_{j})

$K(x_{i},x_{j})$

α^{*} = (K + λ n I)^{- 1} Y .

$\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation}$ Alternatywnie możemy potraktować problem jako normalny problem regresji kalenicy / regresji liniowej:

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}\alpha},\end{equation}$ z rozwiązaniem

α^{*} = (K^{T} K + λ n I)^{- 1} K^{T} Y .

$\begin{equation} {\alpha^*=(K^{T}K +\lambda nI)^{-1}K^{T}Y}. \end{equation}$

Jaka byłaby zasadnicza różnica między tymi dwoma podejściami i ich rozwiązaniami?

regression generalized-linear-model regularization kernel-trick rbf-kernel MthQ
źródło

stats.stackexchange.com/questions/79192/…

Cagdas Ozgenc

@MThQ - Czy Twój opis „normalnej” regresji grzbietu nadal nie działa w dual? Żeby wyjaśnić, że moim zdaniem zakłada się, że normalna regresja kalenicy działa w pierwotnej postaci (w przypadku wyraźnej reprezentacji cech).

rnoodle

Jak zapewne zauważyliście przy zapisywaniu problemów z optymalizacją, jedyną różnicą w minimalizacji jest to, której normy Hilberta należy użyć do penalizacji. Oznacza to, że do oszacowania, jakie „duże” wartości służą do celów penalizacji. W ustawieniach RKHS używamy produktu wewnętrznego RKHS, , podczas gdy regresja kalenicy karze w odniesieniu do normy euklidesowej. $\alpha$ $\alpha^tK\alpha$

Interesującą konsekwencją teoretyczna jest jak każdy efekty metoda widmo jądra odtwarzające . Z teorii RKHS wynika, że jest symetrycznym dodatnim określonym. Twierdzeniem spektralnym możemy napisać gdzie jest macierzą diagonalną wartości własnych, a jest macierzą ortonormalną wektorów własnych. W związku z tym w ustawieniu RKHS Tymczasem w ustawieniu regresji Ridge zwróć uwagę, że symetrycznie, $K$ $K$ $K = U^tDU$ $D$ $U$

\begin{aligned} (K + λ n I)^{- 1} Y & = [U^{t} (D + λ n I) U]^{- 1} Y \\ = U^{t} [D + λ n I]^{- 1} U Y . \end{aligned}

$\begin{align} (K+\lambda nI)^{-1}Y &= [U^t(D+\lambda nI)U]^{-1}Y\\ &= U^t[D+\lambda nI]^{-1}UY. \end{align}$

K^{t} K = K^{2}

$K^tK=K^2$

\begin{aligned} (K^{2} + λ n I)^{- 1} K Y & = [U^{t} (D^{2} + λ n I) U]^{- 1} K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} U K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} D U Y \\ = U^{t} [D + λ n D^{- 1}]^{- 1} U Y . \end{aligned}

$\begin{align} (K^2+\lambda nI)^{-1}KY &= [U^t(D^2+\lambda nI)U]^{-1}KY\\ &= U^t[D^2+\lambda nI]^{-1}UKY\\ &= U^t[D^2+\lambda nI]^{-1}DUY\\ &= U^t[D+\lambda nD^{-1}]^{-1}UY. \end{align}$ Niech spektrum będzie . W regresji RKHS wartości własne są stabilizowane przez . W regresji Ridge'a mamy . W rezultacie RKHS jednolicie modyfikuje wartości własne, podczas gdy Ridge dodaje większą wartość, jeśli odpowiadające mu jest mniejsze.

K

$K$

ν_{1}, \dots, ν_{n}

$\nu_1,\ldots,\nu_n$

ν_{i} \to ν_{i} + λ n

$\nu_i\rightarrow\nu_i+\lambda n$

ν_{i} \to ν_{i} + λ n / ν_{i}

$\nu_i\rightarrow \nu_i + \lambda n/\nu_i$

ν_{i}

$\nu_i$

W zależności od wyboru jądra, dwie oceny mogą być blisko siebie lub daleko od siebie. Odległość w sensie operatora będzie wynosić jednak nadal ograniczone dla danego $\alpha$

\begin{aligned} ‖ α_{RKHS} - α_{Ridge} ‖_{ℓ^{2}} & = ‖ A_{RKHS} Y - A_{Ridge} Y ‖_{ℓ^{2}} \\ \leq ‖ [D + λ n I]^{- 1} - [D + λ n D^{- 1}]^{- 1} ‖_{\infty} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {| (ν_{i} + λ n)^{- 1} - (ν_{i} + λ n / ν_{i})^{- 1} |} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {\frac{λ n | 1 - ν_{i} |}{(ν_{i} + λ n) (ν_{i}^{2} + λ n)}} ‖ Y ‖_{ℓ^{2}} \end{aligned}

$\begin{align} \|{\alpha_\text{RKHS}-\alpha_\text{Ridge}}\|_{\ell^2} &= \|{ A_\text{RKHS}Y-A_\text{Ridge}Y }\|_{\ell^2}\\ &\le \|[D+\lambda nI]^{-1}-[D+\lambda n D^{-1}]^{-1}\|_\infty\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{| (\nu_i+\lambda n)^{-1} - (\nu_i+\lambda n/\nu_i)^{-1} |\right\}\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{ \frac{\lambda n|1-\nu_i|}{(\nu_i+\lambda n)(\nu_i^2+\lambda n)} \right\}\|Y\|_{\ell^2}\\ \end{align}$

Y

$Y$ , więc dwa estymatory nie mogą być dowolnie daleko od siebie. Stąd, jeśli twoje jądro jest zbliżone do tożsamości, to w większości podejść będzie niewielka różnica. Jeśli twoje jądra są bardzo różne, oba podejścia mogą nadal prowadzić do podobnych rezultatów.

W praktyce trudno jednoznacznie stwierdzić, czy jedno jest lepsze od drugiego w danej sytuacji. Ponieważ minimalizujemy błąd kwadratu podczas reprezentowania danych w kategoriach funkcji jądra, skutecznie wybieramy najlepszą krzywą regresji z odpowiedniej przestrzeni funkcji Hilberta. Dlatego karanie w odniesieniu do wewnętrznego produktu RKHS wydaje się naturalnym sposobem postępowania.

Adam B. Kashlak
źródło

Czy masz na to referencje?

rnoodle

Regularyzowana regresja liniowa vs. regresja RKHS

Odpowiedzi: