Korzyści z procesów gaussowskich

13

Mam to zamieszanie związane z korzyściami procesów Gaussa. Mam na myśli porównanie z prostą regresją liniową, w której zdefiniowaliśmy, że funkcja liniowa modeluje dane.

Jednak w procesach gaussowskich definiujemy rozkład funkcji, co oznacza, że ​​nie definiujemy konkretnie, że funkcja powinna być liniowa. Możemy zdefiniować przejęcie przed funkcją, które jest przejęciem Gaussa, który określa takie cechy, jak stopień gładkości powinien być i w ogóle.

Nie musimy więc wyraźnie określać, jaki powinien być model. Mam jednak pytania. Mamy marginalne prawdopodobieństwo i za jego pomocą możemy dostroić parametry funkcji kowariancji przeora gaussa. Jest to podobne do definiowania rodzaju funkcji, która powinna być, prawda?

Sprowadza się do tego samego, co definiuje parametry, mimo że w GP są hiperparametrami. Na przykład w tym artykule . Zdefiniowali, że średnia funkcja lekarza ogólnego jest podobna

m(x)=zax2)+bx+dotj. wielomian drugiego rzędu.

Zdecydowanie więc model / funkcja jest zdefiniowana, prawda? Jaka jest różnica w definiowaniu funkcji liniowej, jak w LR.

Po prostu nie dostałem korzyści wynikających ze stosowania GP

użytkownik34790
źródło

Odpowiedzi:

7

Przypomnijmy kilka formuł dotyczących regresji procesu Gaussa. Załóżmy, że mamy próbkę . Dla tej próbki logeli wiarygodności ma postać: L = - 1D=(X,y)={(xi,yi)}i=1N gdzieK={k(xi,xj)} N i , j = 1 to macierz kowariancji próbki. Tamk(xi,xj)jest funkcją kowariancji z parametrami, które dostrajamy przy użyciu maksymalizacji loglikeli. Przewidywanie (tylnym średnia) do nowego punktuXma postać:

L=12(log|K|+yTK1y),
K={k(xi,xj)}i,j=1Nk(xi,xj)x tamk={k(x,xi)} N i = 1 to wektor kowariancji między nowym punktem a punktami próbki.
y^(x)=kK1y,
k={k(x,xi)}i=1N

k(xi,xj)=xiTxj

y^(x)=xT.XT.(XXT.)-1y=xT.(XT.X)-1XT.y.
(XXT.)-1

exp(-(xja-xjot)T.ZA-1(xja-xjot))ZA

wprowadź opis zdjęcia tutaj.

Korzyść polega na tym, że możemy modelować funkcje nieliniowe za pomocą odpowiedniej funkcji kowariancji (możemy wybrać najnowocześniejszą, w większości przypadków kwadratowa wykładnicza funkcja kowariancji jest raczej dobrym wyborem). Źródłem nieliniowości nie jest wspomniany składnik trendu, ale funkcja kowariancji.

Aleksiej Zajcew
źródło
3
Powiedziałbym, że jest to tylko jedna korzyść z GP, która jest również współdzielona z innymi metodami jądra. Być probabilistycznym i pochodzącym z ram Bayesa to kolejna zaleta GP.
Seeda
2

xfafa(x)

mzaxfaxfaμ i macierz kowariancji Σ (niepewność), co pozwala np. na optymalizację drogich funkcji czarnej skrzynki.

Tomasz Bartkowiak
źródło