Wydajność regresji grzbietu jądra

11

Regresję grzbietu można wyrazić jako gdzie jest przewidywaną etykietą , do identyfikacji macierzy pożądanego obiektu próbują znaleźć etykietę i macierz PRZEDMIOTY, takie, że:

y^=(XX+aId)1Xx
y^Idd×dxXn×dnxi=(xi,1,...,xi,d)Rd

X=(x1,1x1,2x1,dx2,1x2,2x2,dxn,1x1,2xn,d)

Możemy jądro to w następujący sposób:

y^=(K+aId)1k

gdzie to macierzy funkcji jądraKn×nK

K=(K(x1,x1)K(x1,x2)K(x1,xn)K(x2,x1)K(x2,x2)K(x2,xn)K(xn,x1)K(xn,x2)K(xn,xn))

i n \ razy 1 kolumna wektor funkcji jądra Kkn×1K

k=(K(x1,x)K(x2,x)K(xn,x))

Pytania:

(a) jeśli istnieje więcej obiektów niż wymiary ma to sens, aby nie używać jądra? Np. Niech będzie macierzą , a następnie będzie a my skończymy odwracaniem macierzy zamiast macierzy musielibyśmy odwrócić, gdybyśmy użyli jąder. Czy to oznacza, że ​​jeśli nie powinniśmy używać jąder?xiX50×3XX3×33×350×50dn

(b) czy należy używać najprostszego możliwego jądra? Wydaje się, że jądra w regresji grzbietowej są używane do negowania wpływów wymiarowości i do niewykorzystywania pewnych właściwości przestrzeni cech (w przeciwieństwie do maszyn wektorów nośnych). Chociaż jądra mogą zmieniać odległości między obiektami, czy są jakieś popularne jądra często używane w regresji grzbietu?

(c) co jest czas złożoność regresji kalenicy i / lub jądra regresji Ridge?O

Spirala
źródło
„wydajność” ma inne znaczenie w statystyce. Miałeś na myśli „złożoność obliczeniową”? (w tytule)
Memming
Miałem na myśli „wydajność algorytmiczną”. Chociaż prawdą jest, że moje pytania zasadniczo sprowadzają to do „złożoności obliczeniowej”.
Helix

Odpowiedzi:

5

(a) Celem użycia jądra jest rozwiązanie problemu regresji nieliniowej w tym przypadku. Dobre jądro pozwoli ci rozwiązać problemy w potencjalnie nieskończenie wymiarowej przestrzeni cech. Ale użycie liniowego jądra i wykonanie regresji grzbietu jądra w podwójnej przestrzeni jest równoznaczne z rozwiązaniem problemu w przestrzeni pierwotnej , tj. nie przynosi żadnej korzyści (jest po prostu znacznie wolniejszy, gdy liczba próbek rośnie, jak zauważyłeś).K(x,y)=xy

(b) Jednym z najpopularniejszych wyborów jest kwadratowe jądro wykładnicze który jest uniwersalny (patrz odnośnik poniżej). Istnieje wiele różnych jąder, a każde z nich wywoła inny produkt wewnętrzny (a zatem metryczny) do przestrzeni funkcji.K(x,y)=exp(τ2||xy||2)

(c) Prosta implementacja wymaga rozwiązania liniowego równania wielkości , więc jest to . Istnieje wiele szybszych metod aproksymacji, takich jak aproksymacja Nyströma. Jest to obszar aktywnych badań.nO(n3)

Bibliografia:

  1. Bharath Sriperumbudur, Kenji Fukumizu i Gert Lanckriet. O związku między uniwersalnością, charakterystycznymi ziarnami a osadzaniem miar w RKHS. Journal of Machine Learning Research, 9: 773–780, 2010.
  2. Bernhard Schlkopf, Alexander J. Smola. Nauka za pomocą jąder: obsługa maszyn wektorowych, regularyzacja, optymalizacja i późniejsze wersje 2002
Memming
źródło