Gaussian RBF vs. jądro Gaussa

18

Jaka jest różnica między przeprowadzaniem regresji liniowej za pomocą Gaussian Radial Basis Function (RBF) a wykonywaniem regresji liniowej za pomocą jądra Gaussa?

użytkownik35965
źródło
Witamy na stronie, @ user35965. Proszę przeliterować swoje akronimy. Czy przez „RBF” rozumiesz funkcję radialną ?
Gung - Przywróć Monikę
2
Tak, właśnie to miałem na myśli. Odpowiednio odnotowane do wykorzystania w przyszłości.
user35965,

Odpowiedzi:

19

Jedyną prawdziwą różnicą jest zastosowana regularyzacja. Standaryzowana sieć RBF zazwyczaj stosuje karę opartą na kwadratowej normie wag. W przypadku wersji jądra karą jest zazwyczaj kwadratowa norma wag modelu liniowego skonstruowanego domyślnie w przestrzeni cech indukowanej przez jądro. Kluczową różnicą praktyczną jest to, że kara dla sieci RBF zależy od centrów sieci RBF (a zatem od próbki użytych danych), podczas gdy dla jądra RBF indukowana przestrzeń cech jest taka sama, niezależnie od próbki danych, więc kara jest karą dla funkcji modelu, a nie jego parametryzacji .

Innymi słowy, dla obu modeli mamy

fa(x)=ja=1αjaK.(xja,x)

W przypadku sieci RBF kryterium szkolenia jest następujące

L.=ja=1(yja-fa(xja))2)+λα2)

W przypadku metody jądra RBF mamy K.(x,x)=ϕ(x)ϕ(x) oraz w=i=1αiϕ(xi) . Oznacza to, że kwadratową normę karną za ciężary modelu w indukowanej przestrzeni cech, w można zapisać w kategoriach podwójnych parametrów, α jako

w2=αTKα,

gdzie jest ewaluacji jądra dla wszystkich wzorców treningowych. Kryterium szkolenia jest zatemK

L=i=1(yif(xi))2+λαTKα .

Jedyną różnicą między tymi dwoma modelami jest w terminie regularyzacji.K

Kluczową teoretyczną zaletą podejścia jądra jest to, że pozwala on interpretować model nieliniowy jako model liniowy po stałej transformacji nieliniowej, która nie zależy od próbki danych. Tak więc każda teoria uczenia statystycznego, która istnieje dla modeli liniowych, automatycznie przechodzi do wersji nieliniowej. Wszystko to jednak się psuje, gdy tylko spróbujesz dostroić parametry jądra. W tym momencie teoretycznie powracamy do tego samego punktu, co w sieci neuronowej RBF (i MLP). Zatem teoretyczna przewaga nie jest może tak duża, jak byśmy tego chcieli.

Czy to może mieć jakikolwiek wpływ na wydajność? Prawdopodobnie niewiele. Twierdzenia o „braku darmowego lunchu” sugerują, że nie ma wyższości żadnego algorytmu a priori nad wszystkimi innymi, a różnica w regularyzacji jest dość subtelna, więc jeśli masz wątpliwości, spróbuj obu i wybierz najlepszy zgodnie np. Z walidacją krzyżową.

Dikran Torbacz
źródło
1
@CagdasOzgenc Tak, dla RBF normalizatorem jest zamiast α T K α dla maszyny jądra. Staną się bardziej podobny jak szerokość funkcji Podstawa zbliża się do zera, jak K zbliży I . Myślę, że dzieje się tak głównie dlatego, że K bierze pod uwagę korelację między funkcjami podstawowymi. α2=αTIααTKαKIK
Dikran Marsupial
@CagdasOzgenc Spoglądam na to, że w regulatorze waży karę inaczej dla każdego wektora podstawowego, a kara zależy od wyboru innych wektorów podstawowych. Ta waga zależy od ich korelacji, więc jeśli wybierzesz inną próbkę, wagi zmienią się w celu kompensacji. Innym sposobem spojrzenia na to jest to, że model jest zdefiniowany w przestrzeni cech określonej przez ϕ ( x ) , która nie zależy od wyboru wektorów bazowych (pod warunkiem, że obejmują one przestrzeń zawierającą dane). Kϕ(x)
Dikran Marsupial
@CagdasOzgenc Pewnie, że możemy przekształcić przestrzeń funkcji podstawowych przez rozkład własny i odzyskać regularyzator w stylu α2 (w rzeczywistości jest to przydatna sztuczka w optymalizacji parametru regularyzacji - doi.org/10.1016/j .neunet.2007.05.005 ). Jednak ta transformacja eliminuje zależność pierwotnego wyboru funkcji bazowej. Aby te dwie rzeczy były równe, wymagałoby α T K α = μ α T I α , co nie jest ogólnie prawdą (szczególnie nie dotyczy jądra RBF).Kα2αTKα=μαTIα
Dikran Marsupial
Dziękuję Ci. Zastanowię się, czy wrócę do ciebie. W tej chwili wydaje się, że nie jestem na twoim poziomie zrozumienia. Muszę więcej myśleć :).
Cagdas Ozgenc
@CagdasOzgenc nie ma problemu, większość standardowych tekstów wyjaśnia to za pomocą funkcji własnych funkcji jądra, co również boli mój mózg! ; o)
Dikran Marsupial