Co sprawia, że ​​jądro Gaussa jest tak magiczne dla PCA i ogólnie?

67

Czytałem o jądrze PCA ( 1 , 2 , 3 ) z jądrem Gaussa i wielomianem.

  • W jaki sposób jądro Gaussa wyjątkowo dobrze oddziela pozornie jakiekolwiek dane nieliniowe? Proszę podać intuicyjną analizę, a także matematycznie, jeśli to możliwe.

  • Jaka jest właściwość jądra Gaussa (z idealnym σ ), czego inne jądra nie mają? Przychodzą mi na myśl sieci neuronowe, SVM i RBF.

  • Dlaczego nie poddamy normy, powiedzmy, pliku PDF z Cauchy i nie oczekujemy takich samych wyników?
Simon Kuang
źródło
1
+1. Doskonałe pytanie, które prawie przeoczyłem, ponieważ nie miało tagu [pca]! Edytowane teraz.
ameba mówi Przywróć Monikę
4
Dobre pytanie. Zastanawiam się, czy odpowiedź może brzmieć „och tak, wiele innych jąder też by działało dobrze, ale gaussian jest dobrze znany / łatwy”
Stumpy Joe Pete
@StumpyJoePete Nie sądzę, że to taka banalna odpowiedź. Jaki inny parametr lokalizacji dystrybucji jest również jego średnią? Jaki parametr skali innych rozkładów jest również jego wariancją? Jaka inna dystrybucja jest tak intuicyjnie uniwersalna? Na pewno nie rozkład Cauchy'ego - to nawet nie ma znaczenia!
shadowtalker
3
@ssdecontrol Cieszę się, że udowodniono mi błąd; Głosowałem zarówno za pytaniem, jak i jedną z odpowiedzi - po prostu uważam, że moja nudna, szelmowska, deflacyjna odpowiedź jest dobrym domyślnym rozwiązaniem, które prawdziwa odpowiedź powinna obalić.
Stumpy Joe Pete,
Myślę, że to może pomóc: stats.stackexchange.com/questions/168051/…

Odpowiedzi:

54

Myślę, że kluczem do magii jest gładkość. Moja długa odpowiedź, która następuje, to po prostu wyjaśnienie tej gładkości. To może być odpowiedź, której się nie spodziewasz.

Krótka odpowiedź:

Pozytywny określony jądra istnieje odpowiadający mu przestrzeni funkcji H . Właściwości funkcji są określane przez jądro. Okazuje się, że jeśli k jest jądrem Gaussa, funkcje w H są bardzo płynne. Zatem wyuczona funkcja (np. Funkcja regresji, główne składniki w RKHS jak w jądrze PCA) jest bardzo płynna. Zazwyczaj założenie płynności jest sensowne w przypadku większości zestawów danych, które chcemy rozwiązać. To wyjaśnia, dlaczego jądro Gaussa jest magiczne.kHkH

Długa odpowiedź na pytanie, dlaczego jądro Gaussa zapewnia płynne funkcje:

Dodatni określony jądra określa (pośrednio) wewnętrznego produktu k ( x , y ) = φ ( x ) , φ ( y ) H na wektor cech cp ( x ) zbudowane z wejściowego x i H jest przestrzenią Hilberta. Oznaczenie φ ( x ) , φ ( y ) k(x,y)k(x,y)=ϕ(x),ϕ(y)Hϕ(x)xHϕ(x),ϕ(y) oznacza iloczyn wewnętrzny między a ϕ ( y ) . Dla naszego celu możesz wyobrazić sobie H jako zwykłą przestrzeń euklidesową, ale być może o nieskończonej liczbie wymiarów. Wyobraź sobie zwykły wektor, który jest nieskończenie długi, jak ϕ ( x ) = ( ϕ 1 ( x ) , ϕ 2 ( x ) , ) . W metodach jądra Hϕ(x)ϕ(y)Hϕ(x)=(ϕ1(x),ϕ2(x),)Hto przestrzeń funkcji zwana przestrzenią jądra Hilberta (RKHS). Przestrzeń ta ma szczególną właściwość o nazwie `` nieruchomość odtwarzania '', który jest, że . Mówi to, że aby ocenić f ( x ) , najpierw konstruujemy wektor cech (nieskończenie długi, jak wspomniano) dla f . Następnie konstruujesz wektor cech dla x oznaczonego przez ϕ ( x ) (nieskończenie długi). Ocena f ( x )f(x)=f,ϕ(x)f(x)fxϕ(x)f(x)jest otrzymywany poprzez wzięcie wewnętrznego iloczynu obu tych czynników. Oczywiście w praktyce nikt nie zbuduje nieskończenie długiego wektora. Ponieważ zależy nam tylko na jego wewnętrznym produkcie, po prostu bezpośrednio oceniamy jądra . Ominięcie obliczeń jawnych funkcji i bezpośrednie obliczenie jego wewnętrznego produktu jest znane jako „sztuczka jądra”.k

Jakie są funkcje?

Ciągle powtarzałem funkcje bez określania, czym one są. Biorąc pod uwagę jądro k , funkcje nie są unikalne. Jednak φ ( x ) , φ ( y ) jest jednoznacznie określony. Aby wyjaśnić płynność funkcji, rozważmy cechy Fouriera. Załóżmy, że jądro k niezmiennika translacji k , co oznacza k ( x , y ) = k ( x - yϕ1(x),ϕ2(x),kϕ(x),ϕ(y)k tj. jądro zależy tylko od różnicy dwóch argumentów. Jądro Gaussa ma tę właściwość. Niech k oznacza transformaty Fouriera k .k(x,y)=k(xy)k^k

W tej perspektywie Fouriera funkcje są przez F : = (, F l / f. To znaczy, że reprezentacja funkcji twojej funkcjif jest wyrażona przez jej transformatę Fouriera podzieloną przez transformację Fourera jądrak. Reprezentacja cechyx, która jestϕ(x), to(,f:=(,f^l/k^l,)fkxϕ(x) , gdziei=(,k^lexp(ilx),) . Można wykazać, że własność reprodukcyjna zachowuje się (ćwiczenie dla czytelników).i=1

fH

fH2=f,fH=l=f^l2k^l.

Kiedy więc ta norma jest skończona, tj. należy do przestrzeni? Wtedy spada szybciej niż tak że suma jest zbieżna. Teraz transformacja Fouriera jądra gaussowskiegof 2 l K L k ( x , y ) = exp ( - x - y 2ff^l2k^l k(x,y)=exp(xy2σ2)

jest kolejnym gaussowskim, gdzie maleje wykładniczo szybko z . Więc jeśli ma być w tej przestrzeni, jego transformata Fouriera musi spaść nawet szybciej niż . Oznacza to, że funkcja będzie miała efektywnie tylko kilka komponentów niskiej częstotliwości o dużych masach. Sygnał zawierający tylko komponenty niskiej częstotliwości nie `` bardzo się porusza ''. To wyjaśnia, dlaczego jądro Gaussa zapewnia płynną funkcję.LMKk^llfk

Dodatkowo: Co z jądrem Laplace?

Jeśli weźmiesz pod uwagę jądro Laplace'a , jego transformacja Fouriera jest rozkładem Cauchy'ego, który spada znacznie wolniej niż wykładniczy funkcja w transformacie Fouriera jądra Gaussa. Oznacza to, że funkcja będzie miała więcej komponentów wysokiej częstotliwości. W rezultacie funkcja nadana przez jądro Laplace'a jest `` szorstsza '' niż funkcja nadana przez jądro Gaussa.k(x,y)=exp(xyσ)f

Jaka właściwość jądra Gaussa nie ma innych jąder?

Niezależnie od szerokości Gaussa jedną właściwością jest to, że jądro Gaussa jest `` uniwersalne ''. Intuicyjnie oznacza to, że biorąc pod uwagę ograniczoną funkcję ciągłą (dowolną), istnieje funkcja taka, że i są bliskie (w znaczeniu do wymaganej dokładności. Zasadniczo oznacza to, że jądro Gaussa udostępnia funkcje, które mogą dowolnie przybliżać funkcje „ładne” (ograniczone, ciągłe). Jądra Gaussa i Laplace'a są uniwersalne. Jądro wielomianowe na przykład nie jest.gfHfg)

Dlaczego nie poddamy normy, powiedzmy, pliku PDF z Cauchy i nie oczekujemy takich samych wyników?

Ogólnie rzecz biorąc, możesz robić cokolwiek zechcesz, o ile wynikowa wartość jest dodatnia. Pozytywna definitywność jest zdefiniowana jako dla wszystkich , i wszystkich (zestaw liczb naturalnych) . Jeśli nie jest określone dodatnio, to nie odpowiada wewnętrznej przestrzeni produktu. Cała analiza psuje się, ponieważ nie masz nawet przestrzeni funkcji jak wspomniano. Niemniej jednak może działać empirycznie. Na przykład hiperboliczne jądro stycznej (patrz numer 7 na tej stronie )ki=1Nj=1Nk(xi,xj)αiαj>0αiR{xi}i=1NNNkH

k(x,y)=tanh(αxy+c)

który ma naśladować sigmoidalne jednostki aktywacyjne w sieciach neuronowych, jest tylko pozytywnie określony dla niektórych ustawień i . Wciąż zgłaszano, że działa w praktyce.αc

Co z innymi rodzajami funkcji?

Powiedziałem, że funkcje nie są unikalne. W przypadku jądra gaussowskiego inny zestaw funkcji zapewnia rozszerzenie Mercer . Zobacz rozdział 4.3.1 słynnej książki procesu Gaussa . W tym przypadku cechami są wielomiany Hermite'a oceniane przy .ϕ(x)x

wij
źródło
2
Nie zamierzam jeszcze przyznać nagrody, ale kusi mnie, aby udzielić jej tej odpowiedzi, ponieważ jest ona bardzo ukierunkowana na pytanie i dokonuje wyraźnych porównań z innymi jądrami
shadowtalker
Wreszcie to pytanie ma jedną świetną odpowiedź! (+1) Byłem krótko zdezorientowany notacją, której tu użyłeś: - oraz w poniższych akapitach. Czy bardziej wyraźny zapis byłby wyraźniejszy poprzez oddzielenie funkcji działającej na pierwotnej przestrzeni i na wektor , gdzie jest funkcjonalny? Nawiasem mówiąc, które funkcje są „reprodukowane” przez „właściwość reprodukcji”? Wszystko? Ciągły? Gładki? f(x)=f,ϕ(x)f(x)=Ψ(f),ϕ(x)f()Ψ(f)HΨ()
ameba mówi Przywróć Monikę
@amoeba W literaturze ludzie nie rozróżniają reprezentacji i samej funkcji. W razie potrzeby czasami używają do reprezentacji i dla funkcji. Wszystkie funkcje w przestrzeni mają właściwość odtwarzania. Gładkie czy nie, określone przez jądro. :)fff()H
wij
Zaktualizowano wpis. Dodano trochę więcej w jądrze tanh.
wij
Hmmm, myślę, że jestem tutaj zdezorientowany. Zaczynamy od przestrzeni wektorowej , w której żyją punkty danych . Następnie wybieramy pozytywne określony jądra . Następnie twierdzimy, że Twierdzenie 1 utrzymuje: może być zrealizowany jako iloczyn kropkowy na pewnej przestrzeni Hilberta , tak że , gdzie . W porządku. A teraz mówisz, że dowolna funkcja działająca na może być zrealizowana jako iloczyn skalarny jej reprezentacjiXxk(,):X×XRkHk(x,y)=ϕ(x),ϕ(y)ϕ:XHf(x)XfHz ? Czy to jest poprawne? ϕ(x)
ameba mówi Przywróć Monikę
18

Zrobię co w mojej mocy, aby odpowiedzieć na to pytanie nie dlatego, że jestem ekspertem w tej dziedzinie (wręcz przeciwnie), ale dlatego, że jestem ciekawy dziedziny i tematu w połączeniu z pomysłem, że może to być dobre doświadczenie edukacyjne . Tak czy inaczej, oto wynik moich krótkich badań amatorskich na ten temat.

TL; DR : Jako krótką odpowiedź na to pytanie rozważę następujący fragment artykułu badawczego „Związek między operatorami regularyzacji a jądrem wektorów pomocniczych” :

Jądra gaussowskie mają tendencję do zapewniania dobrej wydajności przy ogólnych założeniach dotyczących gładkości i należy to wziąć pod uwagę, zwłaszcza jeśli nie jest dostępna dodatkowa wiedza na temat danych.

Teraz szczegółowa odpowiedź (o ile mi wiadomo; w celu uzyskania szczegółów matematycznych proszę skorzystać z referencji).

Jak wiemy, analiza głównych składników (PCA) jest bardzo popularnym podejściem do redukcji wymiarowości , samodzielnie i do późniejszej klasyfikacji danych: http://www.visiondummy.com/2014/05/feature-extraction-using-pca . Jednak w sytuacjach, gdy dane przenoszą zależności nieliniowe (innymi słowy liniowo nierozdzielne ), tradycyjne PCA nie ma zastosowania (nie działa dobrze). W takich przypadkach można zastosować inne podejścia, a nieliniowe PCA jest jednym z nich.

Podejścia, w których PCA opiera się na wykorzystaniu funkcji jądra, zwykle się nazywa, używając ogólnego terminu „jądro PCA” ( kPCA ). Korzystanie z jądra Gaussa jako funkcji radialnej (RBF) jest prawdopodobnie najpopularniejszą odmianą. To podejście jest szczegółowo opisane w wielu źródłach, ale bardzo podoba mi się doskonałe wyjaśnienie Sebastiana Raschki w tym poście na blogu . Jednak wspominając o możliwości korzystania z funkcji jądra innych niż Gaussian RBF, post skupia się na tym ostatnim ze względu na jego popularność. Ten miły wpis na blogu , przedstawiający przybliżenia jądra i sztuczkę jądra , wymienia jeszcze jeden możliwy powód popularności jądra Gaussa dla PCA: nieskończona wymiarowość.

Dodatkowe spostrzeżenia można znaleźć w kilku odpowiedziach na temat Quora. W szczególności czytanie tej doskonałej dyskusji ujawnia kilka punktów na temat potencjalnych przyczyn popularności jądra Gaussa, jak następuje.

  • Jądra gaussowskie są uniwersalne :

Jądra gaussowskie to jądra uniwersalne, tzn. Ich zastosowanie z odpowiednią regularyzacją gwarantuje globalnie optymalny predyktor, który minimalizuje zarówno błędy oszacowania, jak i aproksymacji klasyfikatora.

  • Jądra gaussowskie są okrągłe (co prowadzi do wyżej wspomnianej nieskończonej wymiarowości?)
  • Jądra gaussowskie mogą reprezentować „bardzo zróżnicowane tereny”
  • Następujący punkt, wspierający główny wniosek powyżej, lepiej jest przytoczyć, powołując się na autora:

Jądro Gaussa RBF jest bardzo popularne i jest dobrym domyślnym jądrem, szczególnie przy braku specjalistycznej wiedzy na temat danych i dziedziny, ponieważ w pewnym sensie obejmuje jądro wielomianowe i liniowe. Jądra liniowe i jądra wielomianowe są szczególnym przypadkiem jądra Gaussa RBF. Jądra Gaussa RBF są modelem nieparametrycznym, co zasadniczo oznacza, że ​​złożoność modelu jest potencjalnie nieskończona, ponieważ liczba funkcji analitycznych jest nieskończona.

  • Jądra gaussowskie są optymalne (na gładkości , czytaj więcej tutaj - ten sam autor):

Jądro Gaussa to tylko filtr pasmowoprzepustowy; wybiera najbardziej płynne rozwiązanie. [...] Jądro gaussowskie działa najlepiej, gdy nieskończona suma pochodnych wysokiego rzędu zbiega się najszybciej - i dzieje się tak w przypadku najbardziej płynnych rozwiązań.

Na koniec dodatkowe punkty z tej miłej odpowiedzi :

  • Jądra gaussowskie obsługują nieskończenie złożone modele
  • Jądra gaussowskie są bardziej elastyczne

UWAGI:

Powyższy punkt na temat optymalnego wyboru jądra Gaussa , szczególnie gdy nie ma wcześniejszej wiedzy na temat danych, znajduje poparcie w następującym zdaniu z tej odpowiedzi CV :

Przy braku wiedzy eksperckiej jądro Radial Basis Function stanowi dobre domyślne jądro (po ustaleniu jest to problem wymagający modelu nieliniowego).

Dla osób ciekawych nieistotnych różnic między jądrem Gaussa RBF a standardowym jądrem Gaussa odpowiedź ta może być interesująca: https://stats.stackexchange.com/a/79193/31372 .

Dla tych, którzy są zainteresowani wdrożeniem kPCA dla przyjemności lub w interesach, ten miły wpis na blogu może być pomocny. Jest napisany przez jednego z autorów (twórców?) Accord.NET - bardzo interesującego środowiska .NET typu open source do analizy statystycznej, uczenia maszynowego, przetwarzania sygnałów i wielu innych.

Aleksandr Blekh
źródło
5
Doceniam i pochwalam wysiłek włożony w skomponowanie tej odpowiedzi, ale jednocześnie muszę powiedzieć, że przytacza ona wiele źródeł, które nie są zbyt wiarygodne i które dostarczają tylko tego rodzaju ogólnych, falujących wyjaśnień, które mogą być poprawne, ale mogą też bądź całkowicie fałszywy. Jądro RBF to izotropowe stacjonarne jądro z nieskończenie wymiarową reprodukcją przestrzeni Hilberta. Dobry! Czy istnieją inne jądra o tych właściwościach? Jeśli tak, to dlaczego RBF byłby lepszy od nich wszystkich? Czy faktycznie istnieje jakieś empiryczne poparcie dla twierdzenia, że ​​RBF przewyższa takich konkurentów?
ameba mówi Przywróć Monikę
@amoeba: Dziękuję za miłe słowa. Jeśli chodzi o źródła, z których korzystałem, masz częściowo rację - to mieszanka, a niektóre źródła to tylko opinie. Jednak niektóre źródła (np. Posty na blogu) same cytują solidne artykuły. W tym momencie bardziej pociągała mnie jakość wyjaśnień niż ich rygor. Jeśli chodzi o twoje pytania, przygotowuję się do udzielenia odpowiedzi później. Muszę przeczytać trochę więcej teorii. Skompilowałem już źródła ze wsparciem empirycznym, ale potrzebuję więcej czasu na ich usystematyzowanie (i trochę snu :).
Aleksandr Blekh
1
Mam wrażenie, że Gaussian ma maksymalną entropię wśród rzeczywistych rozkładów symetrycznych, odgrywa rolę w twoim pierwszym punkcie na temat dobrych wyników przy ogólnym założeniu
shadowtalker
2
Również @AleksandrBlekh to fantastyczna kompilacja. Ludzie szarpią się na Quorze, ale jest to nie mniej autorytatywne niż link do innej odpowiedzi tutaj
shadowtalker
@ssdecontrol: Dziękuję za miłe słowa. Cieszę się, że jesteśmy na tej samej stronie na ten temat. Mam dodatkowe informacje, aby odpowiedzieć na komentarz Amoeby, więc obejrzyj to miejsce, jeśli jesteś zainteresowany.
Aleksandr Blekh
8

Pozwól mi włożyć moje dwa centy.

Sposób, w jaki myślę o jądrach Gaussa, jest w pewnym sensie klasyfikatorami najbliższych sąsiadów. Jądro gaussowskie robi to, że reprezentuje każdy punkt z odległością do wszystkich innych punktów w zestawie danych. Pomyślmy teraz o klasyfikatorach z liniowymi lub wielomianowymi granicami, granice są ograniczone do pewnych kształtów. Jednak gdy spojrzysz na najbliższego sąsiada, granica może praktycznie przybrać dowolny kształt. Dlatego myślę, że myślimy o jądrze Gaussa również jako nieparametrycznym, tj. Dostosowującym granicę w zależności od danych. Innym sposobem myślenia o tym jest dostosowanie jądra Gaussa do lokalnego kształtu w regionie, podobnie do tego, jak najbliższy sąsiad lokalnie dostosowuje granicę, patrząc na odległość do innych punktów w lokalnym regionie.

Nie mam na to matematycznego argumentu, ale myślę, że fakt, że jądro Gaussa faktycznie mapuje na nieskończoną przestrzeń wymiarową, ma coś wspólnego z jego sukcesem. W przypadku jąder liniowych i wielomianowych produkty kropkowe są pobierane w skończonych przestrzeniach wymiarowych; stąd wydajniejsze wydaje się robienie rzeczy na większej przestrzeni. Mam nadzieję, że ktoś lepiej to zrozumie. Oznacza to również, że jeśli znajdziemy inne jądra z nieskończonymi przestrzeniami wymiarowymi, powinny one również być dość potężne. Niestety, nie znam żadnego takiego jądra.

Jeśli chodzi o twój ostatni punkt, myślę, że Cauchy pdf lub jakikolwiek inny pdf, który w jakiś sposób mierzy odległość do innych punktów, powinien działać równie dobrze. Ponownie nie mam za tym dobrego argumentu matematycznego, ale połączenie z najbliższym sąsiadem czyni to możliwym.

Edytować:

Oto kilka pomysłów na to, jak myśleć o klasyfikatorze wykorzystującym jądra Gaussa jako klasyfikatory najbliższego sąsiada. Najpierw zastanówmy się, co robi klasyfikator najbliższego sąsiada. Zasadniczo klasyfikator najbliższego sąsiada jest standardowym klasyfikatorem, który wykorzystuje odległości między punktami jako dane wejściowe. Bardziej formalnie, wyobraźmy sobie, że tworzymy reprezentację elementu dla każdego punktu w zestawie danych, obliczając jego odległość do wszystkich innych punktów. Powyżej, jest funkcją odległości. Następnie to, co robi klasyfikator najbliższego sąsiada, to przewidywanie etykiety klasy dla punktu na podstawie tej reprezentacji funkcji i etykiet klasy dla danych. gdzieϕixi

ϕi=(d(xi,x1),d(xi,x2),,d(xi,xn))
d
pi=f(ϕi,y)
pi jest prognozą dla punktu danych a jest wektorem etykiet klas dla .xiyx1,x2,,xn

Sposób, w jaki myślę o jądrach, polega na tym, że robią podobne rzeczy; tworzą reprezentację cech każdego punktu za pomocą jego wartości jądra z innymi punktami w zestawie danych. Podobnie jak w przypadku najbliższego sąsiada, formalnie byłoby to Teraz połączenie z najbliższym sąsiadem jest dość oczywiste; jeśli nasza funkcja jądra jest jakąś miarą związaną z pomiarami odległości stosowanymi w klasyfikatorach najbliższych sąsiadów, nasz klasyfikator oparty na jądrze będzie podobny do modelu najbliższego sąsiada.

ϕi=(k(xi,x1),k(xi,x2),,k(xi,xn))

Uwaga: Klasyfikatory, które trenujemy przy użyciu jąder, nie działają bezpośrednio z tymi reprezentacjami , ale myślę, że właśnie to robią w sposób dorozumiany.ϕi

goker
źródło
Interesująca jest interpretacja najbliższych sąsiadów. Myślisz, że mógłbyś trochę się rozwinąć? Myślę, że rozumiem, ale nie jestem pewien.
shadowtalker
@ssdecontrol Dodałem kilka komentarzy; Mam nadzieję, że są pomocni.
goker
6

Powodem jest to, że wymiar VC dla jąder Gaussa jest nieskończony, a zatem, biorąc pod uwagę prawidłowe wartości parametrów (sigma), mogą one poprawnie klasyfikować dowolnie dużą liczbę próbek.

RBF działają dobrze, ponieważ zapewniają, że macierz ma pełną pozycję. Chodzi o to, że , a terminy nie przekątne można dowolnie zmniejszyć, zmniejszając wartość . Zauważ, że jądro odpowiada iloczynowi w przestrzeni funkcji. W tej przestrzeni cech wymiar jest nieskończony (biorąc pod uwagę ekspansję szeregową wykładniczą). Można zatem postrzegać to jako rzutowanie tych punktów w różnych wymiarach, aby można je było rozdzielić.K ( x i , x i ) > 0 σK(xi,xj)K(xi,xi)>0σ

Rozważmy natomiast przypadek liniowych jąder, które mogą zniszczyć tylko cztery punkty na płaszczyźnie.

Możesz rzucić okiem na ten artykuł , choć jest on bardzo techniczny. Jedna ze standardowych książek na temat maszyn wirtualnych powinna ułatwić dostęp do tej koncepcji.

jpmuc
źródło
1
„RBF działają dobrze, ponieważ zapewniają, że macierz ma pełną rangę”: dotyczy to każdej prawidłowej funkcji jądra (Mercer) (w tym liniowej), więc nie jestem pewien, jak to tłumaczy rzekome wykluczenie -wydajność RBF. K(xi,xj)
user603,
2
Oprócz tego, co właśnie napisał @ user603: czy istnieją inne popularne jądra z nieskończonym wymiarem VC (wymiar przestrzeni docelowej)? Jeśli tak, to czy są tak dobre jak RBF?
ameba mówi Przywróć Monikę
2
Czy wymiar VC nie jest właściwością zestawu klasyfikatorów, a nie właściwości jądra?
wij
2
@ user603: to nie jest prawda. Jądra Mercer wymagają tylko, aby macierz jądra była dodatnia półfinałowa; mogą być pojedyncze. Na przykład jądro liniowe faktycznie daje osobne macierze jądra, jeśli jest w twoim zestawie punktów. (Oczywiście, większość jąder jest ściśle pozytywna, więc nie jest to szczególnie charakterystyczna właściwość gaussowskiego RBF.)xi=0
Dougal