Jestem trochę zmieszany. Dlaczego procesy Gaussa nazywane są modelami nieparametrycznymi?
Zakładają, że wartości funkcjonalne lub ich podzbiór mają wcześniejszy Gaussa ze średnią 0 i funkcją kowariancji podaną jako funkcja jądra. Te funkcje jądra same w sobie mają pewne parametry (tj. Hiperparametry).
Dlaczego więc nazywane są modelami nieparametrycznymi?
nonparametric
gaussian-process
użytkownik34790
źródło
źródło
Odpowiedzi:
Przedmówię to stwierdzeniem, że nie zawsze jest jasne, co należy rozumieć przez „nieparametryczny” lub „półparametryczny” itp. W komentarzach wydaje się prawdopodobne, że whuber ma na myśli jakąś formalną definicję (może coś w rodzaju wyboru modelu z jakiejś rodziny { M θ : θ ∈ Θ } gdzie ΘMθ {Mθ:θ∈Θ} Θ ma nieskończone wymiary), ale będę dość nieformalny. Niektórzy mogą argumentować, że metoda nieparametryczna to taka, w której efektywna liczba używanych parametrów rośnie wraz z danymi. Myślę, że na stronie videolectures.net znajduje się wideo, na którym (jak sądzę) Peter Orbanz podaje cztery lub pięć różnych ujęć tego, jak możemy zdefiniować „nieparametryczny”.
Ponieważ myślę, że wiem, jakie rzeczy masz na myśli, dla uproszczenia założę, że mówisz o używaniu procesów Gaussa do regresji, w typowy sposób: mamy dane treningowe jesteśmy zainteresowani modelowaniem średniej warunkowej E ( Y | X = x ) : = f ( x ) . Piszemy Y i = f ( X i(Yi,Xi),i=1,...,n E(Y|X=x):=f(x) będzie jednowymiarowy, ale wszystko przeniesie się na wyższe wymiary.
i być może jesteśmy tak odważni, że zakładamy, że ϵ i są iid i normalnie rozłożone, ϵ i ∼ N ( 0 , σ 2 ) . X i
Jeśli nasz może przyjmować wartości w kontinuum, to f ( ⋅ ) może być uważane za parametr (niepoliczalnie) nieskończonego wymiaru. W tym sensie, że szacujemy parametr nieskończonego wymiaruXi f(⋅) , nasz problem jest nieparametryczny. To prawda, że podejście bayesowskie ma pewne parametry unoszące się tu i tam. Ale tak naprawdę nazywa się to nieparametrycznym, ponieważ szacujemy coś o nieskończonym wymiarze. Priory GP, których używamy, przypisują masę do każdego sąsiedztwa każdej funkcji ciągłej, aby mogli dowolnie oszacować dowolną funkcję ciągłą.
Rzeczy w funkcji kowariancji odgrywają rolę podobną do parametrów wygładzania w zwykły - częstościowym estymatorów, aby problem się nie być absolutnie beznadziejna musimy założyć, że istnieje pewna struktura, że możemy spodziewać się wystawowa. Bayesianie dokonują tego, stosując przeor na przestrzeni funkcji ciągłych w postaci procesu Gaussa. Z perspektywy bayesowskiej kodujemy przekonania na temat f , zakładając, że f pochodzi od lekarza ogólnego z taką lub inną funkcją kowariancji. Wcześniej skutecznie karze oszacowania f za zbyt skomplikowane.f f f f
Edycja dla problemów obliczeniowych
Większość (wszystkich?) Tych rzeczy znajduje się w książce Gaussian Process autorstwa Rasmussena i Williamsa.
źródło
Ogólnie rzecz biorąc, „nieparametryczny” w nieparametrycznych bayesowskich odnosi się do modeli o nieskończonej liczbie (potencjalnych) parametrach. Na stronie videolectures.net ( takiej jak ta ) znajduje się wiele naprawdę fajnych samouczków i wykładów na ten temat, które dają ładny przegląd tej klasy modeli.
W szczególności proces Gaussa (GP) jest uważany za nieparametryczny, ponieważ GP reprezentuje funkcję (tj. Nieskończony wektor wymiarowy). Wraz ze wzrostem liczby punktów danych (pary (x, f (x))), wraz ze wzrostem liczby „parametrów” modelu (ograniczając kształt funkcji). W przeciwieństwie do modelu parametrycznego, w którym liczba parametrów pozostaje stała w odniesieniu do wielkości danych, w modelach nieparametrycznych liczba parametrów rośnie wraz z liczbą punktów danych.
źródło
Parametry, które określiłeś jako hiperparametry, nie są parametrami motywowanymi fizycznie i stąd nazwa. Służą one wyłącznie do parametryzacji funkcji jądra. Dla przykładu, w jądrze Gaussa:
Kwestia ta została również poruszona w tym wykładzie i może pomóc w lepszym zrozumieniu.
źródło