Jak udowodnić, że podstawowa funkcja radialna jest jądrem? O ile rozumiem, aby to udowodnić, musimy udowodnić jedno z poniższych:
Dla dowolnego zestawu wektorów macierz = jest dodatnim półfinałem.
Można przedstawić mapowanie takie jak = .
Jakaś pomoc?
svm
kernel-trick
Lew
źródło
źródło
Odpowiedzi:
Zen zastosowana metoda 1. Oto metoda 2: Odwzoruj na sferycznie symetryczny rozkład Gaussa wyśrodkowany na w przestrzeni Hilberta . Odchylenie standardowe i stały współczynnik muszą zostać zmienione, aby działało dokładnie. Na przykład w jednym wymiarzex x L.2)
Zatem użyj standardowego odchylenia i przeskaluj rozkład Gaussa, aby uzyskać . To ostatnie przeskalowanie występuje, ponieważ norma rozkładu normalnego nie jest ogólnie . k(x,y)=⟨Φ(x),Φ(y)⟩L21σ/ 2-√ k ( x , y)=⟨Φ(x),Φ(y)⟩ L2 1
źródło
Będę używał metody 1. Sprawdź odpowiedź Douglasa Zarea, aby uzyskać dowód przy użyciu metody 2.
Udowodnię przypadek, gdy są liczbami rzeczywistymi, więc . Ogólny przypadek wynika mutatis mutandis z tego samego argumentu i warto go zrobić.k ( x , y ) = exp ( - ( x - y ) 2 / 2 σ 2 )x,y k(x,y)=exp(−(x−y)2/2σ2)
Bez utraty ogólności załóżmy, że .σ2=1
Napisz , gdzie jest funkcją charakterystyczną zmiennej losowej o rozkładzie .h ( t ) = exp ( - t 2k(x,y)=h(x−y) ZN(0,1)
Dla liczb rzeczywistych i 1 , ... , N mamy co oznacza, że jest dodatnią funkcją półfinałową, czyli jądrem.x1,…,xn a1,…,an k
Aby zrozumieć ten wynik w większej ogólności, sprawdź Twierdzenie Bochnera: http://en.wikipedia.org/wiki/Positive-definite_function
źródło
Dodam trzecią metodę, dla urozmaicenia: budowanie jądra z sekwencji ogólnych kroków znanych z tworzenia jąder pd. Niech oznaczają domenę ziaren poniżej i cp map fabularnych.X φ
Skalowanie: Jeśli jest jądrem pd, to także γ κ dla dowolnej stałej γ > 0 .κ γκ γ>0
Dowód: jeśli jest mapą funkcji dla , jest prawidłową mapą funkcji dla .φ √κ γκγ−−√φ γκ
Sumy: Jeśli i są jądrami pd, podobnie jest z .κ 2 κ 1 + κ 2κ1 κ2 κ1+κ2
Dowód: Połącz mapy obiektów i , aby uzyskać .φ 2 x ↦ [ φ 1 ( x ) φ 2 ( x ) ]φ1 φ2 x↦[φ1(x)φ2(x)]
Limity: Jeśli są jądrami pd, a istnieje dla wszystkich , to to pd.κ ( x , y ) : = lim n → ∞ κ n ( x , y ) x , y κκ1,κ2,… κ(x,y):=limn→∞κn(x,y) x,y κ
Dowód: Dla każdego i każdego mamy to . Przyjmowanie limitu jako daje tę samą właściwość dla .{ ( x i , c i ) } m i = 1 ⊆ X × R ∑ m i = 1 c i κ n ( x i , x j ) c j ≥ 0 n → ∞ κm,n≥1 {(xi,ci)}mi=1⊆X×R ∑mi=1ciκn(xi,xj)cj≥0 n→∞ κ
Produkty: Jeśli i są jądrami pd, to też .κ 2 g ( x , y ) = κ 1 ( x , y )κ1 κ2) sol( x , y) = κ1( x , y)κ2)( x , y)
Dowód: bezpośrednio wynika z twierdzenia o produkcie Schur , ale Schölkopf i Smola (2002) dają następujący ładny, elementarny dowód. Niech bądź niezależny. Zatem Macierze kowariancji muszą być psd, więc biorąc pod uwagę macierz kowariancji to potwierdza. C o v ( V i W i , V j W j ) = C o v ( V i , V j )
Uprawnienia: Jeśli jest jądrem pd, podobnie jest dla dowolnej dodatniej liczby całkowitej .κ n ( x , y ) : = κ ( x , y ) n nκ κn( x , y) : = κ ( x , y)n n
Dowód: bezpośrednio z właściwości „produktów”.
Wykładniki: Jeśli jest jądrem pd, podobnie jak .e κ ( x , y ) : = exp ( κ ( x , y ) )κ miκ( x , y) : = exp( κ ( x , y) )
Dowód: Mamy ; użyj właściwości „potęgi”, „skalowania”, „sum” i „limitów”.miκ( x , y) = limN.→ ∞∑N.n = 01n !κ ( x , y)n
Funkcje: Jeśli jest jądrem pd, a także , .f : X → R g ( x , y ) : = f ( x ) κ ( x , y ) f ( y )κ fa: X→ R sol( x , y) : = f( x ) κ ( x , y) f( y)
Dowód: użyj mapy funkcji .x ↦ f( x ) φ ( x )
Teraz zauważ, że Rozpocznij od jądra liniowego , zastosuj „skalowanie” za pomocą , zastosuj „wykładniki” i zastosuj „funkcje” za pomocą .
źródło