Co to jest podział na funkcje?

15

Czytam podręcznik Gaussa Process for Machine Learning autorstwa CE Rasmussena i CKI Williams i mam problem ze zrozumieniem, co oznacza podział na funkcje . W podręczniku podano przykład, że należy sobie wyobrazić funkcję jako bardzo długi wektor (czy w rzeczywistości powinien być nieskończenie długi?). Tak więc wyobrażam sobie rozkład funkcji jako rozkład prawdopodobieństwa narysowany „powyżej” takich wartości wektora. Czy byłoby zatem prawdopodobne, że funkcja przyjmie tę konkretną wartość? A może byłoby prawdopodobne, że funkcja przyjmie wartość z danego zakresu? A może rozkład funkcji jest prawdopodobieństwem przypisanym do całej funkcji?

Cytaty z podręcznika:

Rozdział 1: Wprowadzenie, strona 2

Proces Gaussa jest uogólnieniem rozkładu prawdopodobieństwa Gaussa. Podczas gdy rozkład prawdopodobieństwa opisuje zmienne losowe, które są skalarami lub wektorami (dla rozkładów wielowymiarowych), proces stochastyczny rządzi właściwościami funkcji. Pomijając wyrafinowanie matematyczne, można luźno myśleć o funkcji jako o bardzo długim wektorze, przy czym każdy wpis w wektorze określa wartość funkcji f (x) na określonym wejściu x. Okazuje się, że choć ten pomysł jest trochę naiwny, zaskakująco blisko jest tego, czego potrzebujemy. Rzeczywiście, pytanie o to, jak postępujemy obliczeniowo z tymi nieskończonymi obiektami wymiarowymi, ma najprzyjemniejszą możliwą do wyobrażenia rozdzielczość: jeśli zapytasz tylko o właściwości funkcji w skończonej liczbie punktów,

Rozdział 2: Regresja, strona 7

Istnieje kilka sposobów interpretacji modeli regresji procesu Gaussa (GP). Można myśleć o procesie Gaussa jako o zdefiniowaniu rozkładu funkcji i wnioskowanie zachodzące bezpośrednio w przestrzeni funkcji, widoku funkcji-przestrzeni.


Od wstępnego pytania:

Zrobiłem ten konceptualny obraz, aby spróbować to sobie wyobrazić. Nie jestem pewien, czy takie wyjaśnienie, które dla siebie przygotowałem, jest prawidłowe.

wprowadź opis zdjęcia tutaj


Po aktualizacji:

Po odpowiedzi Gijsa zaktualizowałem obraz, aby był bardziej koncepcyjnie mniej więcej taki:

wprowadź opis zdjęcia tutaj

camillejr
źródło
3
sprawdź to, aby uzyskać intuicyjne wyjaśnienie jgoertler.com/visual-exploration-gaussian-processes
bicepjai

Odpowiedzi:

11

Koncepcja jest nieco bardziej abstrakcyjna niż zwykła dystrybucja. Problem polega na tym, że jesteśmy przyzwyczajeni do koncepcji rozkładu w , zwykle pokazanej jako linia, a następnie rozwijamy ją do powierzchni , i tak dalej do dystrybucji w . Ale przestrzeni funkcji nie można przedstawić w postaci kwadratu, linii lub wektora. Myślenie o tym w ten sposób, tak jak ty, nie jest przestępstwem, ale teoria, która działa w , związana z odległością, dzielnicami itp. (Jest to znana jako topologia przestrzeni), są nie to samo w przestrzeni funkcji. Narysowanie go jako kwadratu może dać błędne intuicje dotyczące tej przestrzeni.RR2RnRn

Możesz po prostu myśleć o przestrzeni funkcji jako o dużej kolekcji funkcji, być może o torbie rzeczy, jeśli chcesz. Rozkład tutaj podaje prawdopodobieństwo narysowania podzbioru tych rzeczy. Rozkład powie: prawdopodobieństwo, że twoje następne losowanie (funkcji) będzie w tym podzbiorze, wynosi na przykład 10%. W przypadku procesu Gaussa dla funkcji w dwóch wymiarach możesz zapytać, biorąc pod uwagę xwspółrzędną i przedziały-wartości, jest to mały pionowy segment linii, jakie jest prawdopodobieństwo, że funkcja (losowa) przejdzie przez tę małą linię? To będzie pozytywne prawdopodobieństwo. Zatem proces Gaussa określa rozkład (prawdopodobieństwa) w przestrzeni funkcji. W tym przykładzie podzbiorem przestrzeni funkcji jest podzbiór, który przechodzi przez segment linii.

Inną mylącą konwencją nazewnictwa jest tutaj to, że rozkład jest zwykle określany przez funkcję gęstości , taką jak kształt dzwonu z rozkładem normalnym. Tam obszar pod funkcją rozkładu informuje o prawdopodobieństwie wystąpienia interwału. Nie działa to jednak dla wszystkich dystrybucji, a w szczególności w przypadku funkcji (nie jak w przypadku normalnych dystrybucji), to wcale nie działa. Oznacza to, że nie będziesz w stanie zapisać tego rozkładu (określonego przez proces Gaussa) jako funkcji gęstości.R

Gijs
źródło
1
Dzięki, aby wyjaśnić, nie jest to rozkład na wartości jednej funkcji, ale rozkład na zbiór funkcji, prawda? Mam jeszcze jedno pytanie: powiedziałeś, że istnieje prawdopodobieństwo, że funkcja losowa przejdzie przez określony przedział czasu, więc na przykład w GPR byłaby to funkcja losowa, ale z określonej „rodziny” funkcji określonych przez jądro kowariancji?
camillejr
2
Tak, jest to podział na zbiór funkcji. Przykład przejścia przez przedział ma zastosowanie, jeśli masz proces Gaussa. Jądro kowariancji faktycznie określi proces Gaussa. Więc jeśli znasz jądro kowariancji, możesz obliczyć prawdopodobieństwo przypadkowej funkcji przechodzącej przez określony interwał.
Gijs,
@ Gijs, proszę spojrzeć na to , szukam intuicji na temat macierzy kowariancji i tego, jak różne warunki korelacji nadal dają podobne wyniki z GP
GENIVI-LEARNER
14

Twoje pytanie zostało już zadane i pięknie udzielone na stronie Mathematics SE:

/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions

Wygląda na to, że nie znasz koncepcji miar Gaussa na przestrzeniach nieskończenie wymiarowych , funkcjonałów liniowych, miar przesunięcia do przodu itp., Dlatego postaram się zachować to tak proste, jak to możliwe.

Wiesz już, jak zdefiniować prawdopodobieństwa nad liczbami rzeczywistymi (zmiennymi losowymi) i nad wektorami (ponownie, zmiennymi losowymi, nawet jeśli zwykle nazywamy je wektorami losowymi). Teraz chcemy wprowadzić miarę prawdopodobieństwa dla nieskończenie wymiarowej przestrzeni wektorowej: na przykład przestrzeń funkcji całkowitych kwadratowych powyżej . Teraz sprawy się komplikują, ponieważ kiedy zdefiniowaliśmy prawdopodobieństwo na lub , pomógł nam fakt, że miara Lebesgue'a jest zdefiniowana w obu przestrzeniach. Jednak nie ma żadnej miary Lebesgue'a względemL2([0,1])I=[0,1]RRnL 2L2(lub dowolna nieskończenie wymiarowa przestrzeń Banacha, jeśli o to chodzi). Istnieją różne rozwiązania tej zagadki, z których większość wymaga dobrej znajomości analizy funkcjonalnej.

Istnieje jednak również prosta „sztuczka” oparta na twierdzeniu o rozszerzeniu Kołmogorowa , która jest zasadniczo sposobem wprowadzania procesów stochastycznych do większości przebiegów prawdopodobieństwa, które nie są ściśle teoretyczne. Teraz będę bardzo falisty i rygorystyczny i ograniczę się do procesów gaussowskich. Jeśli potrzebujesz bardziej ogólnej definicji, możesz przeczytać powyższą odpowiedź lub poszukać linku do Wikipedii. Twierdzenie o rozszerzeniu Kołmogorowa, zastosowane do konkretnego przypadku użycia, stwierdza mniej więcej:

  • załóżmy, że dla każdego skończonego zestawu punktów , ma wielowymiarowy gaussowski dystrybucjaSn={t1,,tn}Ixn=(x(t1),,x(tn))
  • załóżmy teraz, że dla wszystkich możliwych , odpowiednie funkcje rozkładu prawdopodobieństwa i są spójne , tzn. jeśli zintegruję w odniesieniu do zmiennych, które są w ale nie w , wynikowy plik pdf to :Sn,Sm,SnSmfSn(x1,,xn)fSm(x1,,xn,xn+1,,xm)fSmSmSnfSn

Rnm+1fSm(x1,,xn,xn+1,,xm)dxn+1dxm=fSn(x1,,xn)

  • wówczas istnieje proces stochastyczny , tj. zmienna losowa w przestrzeni funkcji , taka, że ​​dla każdego zbioru skończonego rozkład prawdopodobieństwa tych punktów jest wielowymiarowy Gaussa.XL2Snn

Faktyczne twierdzenie jest znacznie bardziej ogólne, ale myślę, że tego właśnie szukałeś.

DeltaIV
źródło