Czytam podręcznik Gaussa Process for Machine Learning autorstwa CE Rasmussena i CKI Williams i mam problem ze zrozumieniem, co oznacza podział na funkcje . W podręczniku podano przykład, że należy sobie wyobrazić funkcję jako bardzo długi wektor (czy w rzeczywistości powinien być nieskończenie długi?). Tak więc wyobrażam sobie rozkład funkcji jako rozkład prawdopodobieństwa narysowany „powyżej” takich wartości wektora. Czy byłoby zatem prawdopodobne, że funkcja przyjmie tę konkretną wartość? A może byłoby prawdopodobne, że funkcja przyjmie wartość z danego zakresu? A może rozkład funkcji jest prawdopodobieństwem przypisanym do całej funkcji?
Cytaty z podręcznika:
Rozdział 1: Wprowadzenie, strona 2
Proces Gaussa jest uogólnieniem rozkładu prawdopodobieństwa Gaussa. Podczas gdy rozkład prawdopodobieństwa opisuje zmienne losowe, które są skalarami lub wektorami (dla rozkładów wielowymiarowych), proces stochastyczny rządzi właściwościami funkcji. Pomijając wyrafinowanie matematyczne, można luźno myśleć o funkcji jako o bardzo długim wektorze, przy czym każdy wpis w wektorze określa wartość funkcji f (x) na określonym wejściu x. Okazuje się, że choć ten pomysł jest trochę naiwny, zaskakująco blisko jest tego, czego potrzebujemy. Rzeczywiście, pytanie o to, jak postępujemy obliczeniowo z tymi nieskończonymi obiektami wymiarowymi, ma najprzyjemniejszą możliwą do wyobrażenia rozdzielczość: jeśli zapytasz tylko o właściwości funkcji w skończonej liczbie punktów,
Rozdział 2: Regresja, strona 7
Istnieje kilka sposobów interpretacji modeli regresji procesu Gaussa (GP). Można myśleć o procesie Gaussa jako o zdefiniowaniu rozkładu funkcji i wnioskowanie zachodzące bezpośrednio w przestrzeni funkcji, widoku funkcji-przestrzeni.
Od wstępnego pytania:
Zrobiłem ten konceptualny obraz, aby spróbować to sobie wyobrazić. Nie jestem pewien, czy takie wyjaśnienie, które dla siebie przygotowałem, jest prawidłowe.
Po aktualizacji:
Po odpowiedzi Gijsa zaktualizowałem obraz, aby był bardziej koncepcyjnie mniej więcej taki:
źródło
Odpowiedzi:
Koncepcja jest nieco bardziej abstrakcyjna niż zwykła dystrybucja. Problem polega na tym, że jesteśmy przyzwyczajeni do koncepcji rozkładu w , zwykle pokazanej jako linia, a następnie rozwijamy ją do powierzchni , i tak dalej do dystrybucji w . Ale przestrzeni funkcji nie można przedstawić w postaci kwadratu, linii lub wektora. Myślenie o tym w ten sposób, tak jak ty, nie jest przestępstwem, ale teoria, która działa w , związana z odległością, dzielnicami itp. (Jest to znana jako topologia przestrzeni), są nie to samo w przestrzeni funkcji. Narysowanie go jako kwadratu może dać błędne intuicje dotyczące tej przestrzeni.R R2 Rn Rn
Możesz po prostu myśleć o przestrzeni funkcji jako o dużej kolekcji funkcji, być może o torbie rzeczy, jeśli chcesz. Rozkład tutaj podaje prawdopodobieństwo narysowania podzbioru tych rzeczy. Rozkład powie: prawdopodobieństwo, że twoje następne losowanie (funkcji) będzie w tym podzbiorze, wynosi na przykład 10%. W przypadku procesu Gaussa dla funkcji w dwóch wymiarach możesz zapytać, biorąc pod uwagę
x
współrzędną i przedziały
-wartości, jest to mały pionowy segment linii, jakie jest prawdopodobieństwo, że funkcja (losowa) przejdzie przez tę małą linię? To będzie pozytywne prawdopodobieństwo. Zatem proces Gaussa określa rozkład (prawdopodobieństwa) w przestrzeni funkcji. W tym przykładzie podzbiorem przestrzeni funkcji jest podzbiór, który przechodzi przez segment linii.Inną mylącą konwencją nazewnictwa jest tutaj to, że rozkład jest zwykle określany przez funkcję gęstości , taką jak kształt dzwonu z rozkładem normalnym. Tam obszar pod funkcją rozkładu informuje o prawdopodobieństwie wystąpienia interwału. Nie działa to jednak dla wszystkich dystrybucji, a w szczególności w przypadku funkcji (nie jak w przypadku normalnych dystrybucji), to wcale nie działa. Oznacza to, że nie będziesz w stanie zapisać tego rozkładu (określonego przez proces Gaussa) jako funkcji gęstości.R
źródło
Twoje pytanie zostało już zadane i pięknie udzielone na stronie Mathematics SE:
/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions
Wygląda na to, że nie znasz koncepcji miar Gaussa na przestrzeniach nieskończenie wymiarowych , funkcjonałów liniowych, miar przesunięcia do przodu itp., Dlatego postaram się zachować to tak proste, jak to możliwe.
Wiesz już, jak zdefiniować prawdopodobieństwa nad liczbami rzeczywistymi (zmiennymi losowymi) i nad wektorami (ponownie, zmiennymi losowymi, nawet jeśli zwykle nazywamy je wektorami losowymi). Teraz chcemy wprowadzić miarę prawdopodobieństwa dla nieskończenie wymiarowej przestrzeni wektorowej: na przykład przestrzeń funkcji całkowitych kwadratowych powyżej . Teraz sprawy się komplikują, ponieważ kiedy zdefiniowaliśmy prawdopodobieństwo na lub , pomógł nam fakt, że miara Lebesgue'a jest zdefiniowana w obu przestrzeniach. Jednak nie ma żadnej miary Lebesgue'a względemL2([0,1]) I=[0,1] R Rn L 2L2 (lub dowolna nieskończenie wymiarowa przestrzeń Banacha, jeśli o to chodzi). Istnieją różne rozwiązania tej zagadki, z których większość wymaga dobrej znajomości analizy funkcjonalnej.
Istnieje jednak również prosta „sztuczka” oparta na twierdzeniu o rozszerzeniu Kołmogorowa , która jest zasadniczo sposobem wprowadzania procesów stochastycznych do większości przebiegów prawdopodobieństwa, które nie są ściśle teoretyczne. Teraz będę bardzo falisty i rygorystyczny i ograniczę się do procesów gaussowskich. Jeśli potrzebujesz bardziej ogólnej definicji, możesz przeczytać powyższą odpowiedź lub poszukać linku do Wikipedii. Twierdzenie o rozszerzeniu Kołmogorowa, zastosowane do konkretnego przypadku użycia, stwierdza mniej więcej:
Faktyczne twierdzenie jest znacznie bardziej ogólne, ale myślę, że tego właśnie szukałeś.
źródło