Dlaczego modele procesu Gaussa nazywane są nieparametrycznymi?

26

Jestem trochę zmieszany. Dlaczego procesy Gaussa nazywane są modelami nieparametrycznymi?

Zakładają, że wartości funkcjonalne lub ich podzbiór mają wcześniejszy Gaussa ze średnią 0 i funkcją kowariancji podaną jako funkcja jądra. Te funkcje jądra same w sobie mają pewne parametry (tj. Hiperparametry).

Dlaczego więc nazywane są modelami nieparametrycznymi?

użytkownik34790
źródło
1
Znam kilka definicji „procesów gaussowskich”, więc nie jest jasne, o co tak naprawdę pyta twoje pytanie. Ale zastanawiając się, jak to wyjaśnić, zadaj sobie następujące pytanie: dokładnie jak sparametryzujesz proces Gaussa, o którym myślisz? Jeśli nie możesz tego zrobić w naturalny sposób przy skończonej liczbie rzeczywistych parametrów, należy to uznać za nieparametryczne.
whuber
@whuber. AFAIK, głównymi parametrami procesów gaussowskich są średnia i funkcje kowariancji. Ale w miarę dodawania punktów danych stale się zwiększają. Więc ciągle rośnie. Czy dlatego procesy gaussowskie określa się jako nieparametryczne?
user34790,
@ whuber Jeśli mam miliony punktów danych treningowych, to mój GP f ~ N (m, k) będzie milionowym wielowymiarowym rozkładem gaussowskim. Czy to nie jest za duże? Mam na myśli, że nowe dane treningowe stają się coraz większe. Czy nie powoduje to problemów obliczeniowych?
user34790,
1
„Parametryczne” kontra „nieparametryczne” to terminy, które nie mają zastosowania do poszczególnych procesów: dotyczą całej rodziny procesów, które mogą być dopasowane do danych. Chociaż wciąż nie wiem, o której rodzinie chodzi, wydaje się, że chociaż liczba parametrów może być skończona w każdych okolicznościach, nie ma ograniczenia co do liczby parametrów, które mogą pojawić się wśród członków rodziny : ergo, problem jest nieparametryczny.
whuber

Odpowiedzi:

20

Przedmówię to stwierdzeniem, że nie zawsze jest jasne, co należy rozumieć przez „nieparametryczny” lub „półparametryczny” itp. W komentarzach wydaje się prawdopodobne, że whuber ma na myśli jakąś formalną definicję (może coś w rodzaju wyboru modelu z jakiejś rodziny { M θ : θ Θ } gdzie ΘMθ{Mθ:θΘ}Θ ma nieskończone wymiary), ale będę dość nieformalny. Niektórzy mogą argumentować, że metoda nieparametryczna to taka, w której efektywna liczba używanych parametrów rośnie wraz z danymi. Myślę, że na stronie videolectures.net znajduje się wideo, na którym (jak sądzę) Peter Orbanz podaje cztery lub pięć różnych ujęć tego, jak możemy zdefiniować „nieparametryczny”.

Ponieważ myślę, że wiem, jakie rzeczy masz na myśli, dla uproszczenia założę, że mówisz o używaniu procesów Gaussa do regresji, w typowy sposób: mamy dane treningowe jesteśmy zainteresowani modelowaniem średniej warunkowej E ( Y | X = x ) : = f ( x ) . Piszemy Y i = f ( X i(Yi,Xi),i=1,...,nE(Y|X=x):=f(x)będzie jednowymiarowy, ale wszystko przeniesie się na wyższe wymiary. i być może jesteśmy tak odważni, że zakładamy, że ϵ i są iid i normalnie rozłożone, ϵ iN ( 0 , σ 2 ) . X i

Yi=f(Xi)+ϵi
ϵiϵiN(0,σ2)Xi

Jeśli nasz może przyjmować wartości w kontinuum, to f ( ) może być uważane za parametr (niepoliczalnie) nieskończonego wymiaru. W tym sensie, że szacujemy parametr nieskończonego wymiaruXif() , nasz problem jest nieparametryczny. To prawda, że ​​podejście bayesowskie ma pewne parametry unoszące się tu i tam. Ale tak naprawdę nazywa się to nieparametrycznym, ponieważ szacujemy coś o nieskończonym wymiarze. Priory GP, których używamy, przypisują masę do każdego sąsiedztwa każdej funkcji ciągłej, aby mogli dowolnie oszacować dowolną funkcję ciągłą.

Rzeczy w funkcji kowariancji odgrywają rolę podobną do parametrów wygładzania w zwykły - częstościowym estymatorów, aby problem się nie być absolutnie beznadziejna musimy założyć, że istnieje pewna struktura, że możemy spodziewać się wystawowa. Bayesianie dokonują tego, stosując przeor na przestrzeni funkcji ciągłych w postaci procesu Gaussa. Z perspektywy bayesowskiej kodujemy przekonania na temat f , zakładając, że f pochodzi od lekarza ogólnego z taką lub inną funkcją kowariancji. Wcześniej skutecznie karze oszacowania f za zbyt skomplikowane.ffff

Edycja dla problemów obliczeniowych

Większość (wszystkich?) Tych rzeczy znajduje się w książce Gaussian Process autorstwa Rasmussena i Williamsa.

O(N2)O(N3)v(K+σ2I)v=YKO(N3)kO(kN2)K

O(N3)O(kN2)Nmm×mYNmO(m2N)

KK=QQTQn×qqK+σ2IQTQ+σ2I

chłopak
źródło
8

Ogólnie rzecz biorąc, „nieparametryczny” w nieparametrycznych bayesowskich odnosi się do modeli o nieskończonej liczbie (potencjalnych) parametrach. Na stronie videolectures.net ( takiej jak ta ) znajduje się wiele naprawdę fajnych samouczków i wykładów na ten temat, które dają ładny przegląd tej klasy modeli.

W szczególności proces Gaussa (GP) jest uważany za nieparametryczny, ponieważ GP reprezentuje funkcję (tj. Nieskończony wektor wymiarowy). Wraz ze wzrostem liczby punktów danych (pary (x, f (x))), wraz ze wzrostem liczby „parametrów” modelu (ograniczając kształt funkcji). W przeciwieństwie do modelu parametrycznego, w którym liczba parametrów pozostaje stała w odniesieniu do wielkości danych, w modelach nieparametrycznych liczba parametrów rośnie wraz z liczbą punktów danych.

Nacięcie
źródło
Właśnie to zakładałem. Więc moje założenie jest słuszne. Ale moje pytanie brzmi, czy mam milion punktów (obserwowane dane). Wtedy mój f będzie miał również milion wymiarów. Więc nie miałbym problemów obliczeniowych. Co więcej, moja macierz kowariancji również będzie miała rozmiar 1 miliona x 1 milion. Więc co powinienem zrobić w tym przypadku?
user34790,
@ user34790 tak, masz problemy z obliczeniami. Wyzwania obliczeniowe są bardzo ważne dla lekarzy ogólnych. Rasmussen i Williams mają książkę na temat lekarzy ogólnych z całym rozdziałem poświęconym temu zagadnieniu, a jeśli wystarczająco mocno przejrzysz google, możesz znaleźć ją online za darmo. Zobacz mój zaktualizowany post, aby uzyskać minimalne szczegóły.
facet
1

Parametry, które określiłeś jako hiperparametry, nie są parametrami motywowanymi fizycznie i stąd nazwa. Służą one wyłącznie do parametryzacji funkcji jądra. Dla przykładu, w jądrze Gaussa:

K.(xja,xjot)=h2)exp(-(xja-xjot)2)λ2))

h i λ są hiperparametrami, ale nie odnoszą się do wielkości, takich jak temperatura, stężenie zanieczyszczeń itp., które można napotkać w prawdziwym modelu parametrycznym.

Kwestia ta została również poruszona w tym wykładzie i może pomóc w lepszym zrozumieniu.

camillejr
źródło