Czy jakakolwiek funkcja ciągła na [a, b], gdzie aib są liczbami rzeczywistymi, może być aproksymowana lub arbitralnie bliska funkcji (w niektórych normach) za pomocą procesów Gaussa (regresja)?
gaussian-process
approximation
Michael D.
źródło
źródło
Odpowiedzi:
Jak zauważa @Dougal, istnieją dwa różne sposoby interpretacji pytania. Są blisko spokrewnieni, nawet jeśli może się to nie wydawać.
Pierwsza interpretacja jest następująca: niech będzie zwartym podzbiorem (zwartość jest fundamentalna dla wszystkich następujących elementów !!!), niech będzie ciągła funkcja kowariancji (lub jądro) zdefiniowana na , i oznacza za pomocą znormalizowaną przestrzeń funkcji ciągłych na , wyposażoną w maksymalną normę . Dla dowolnej funkcji , można zbliżyć do wcześniej określonej tolerancji przez funkcję w RKHS (Reproducing Kernel Hilbert Space) powiązaną zR d k ( x , x ) X × X C ( X ) X | | ⋅ | | ∞ f ∈ C ( X ) f ϵ kX Rd k(x,x) X×X C(X) X ||⋅||∞ f∈C(X) f ϵ k ? Możesz się zastanawiać, czym jest RKHS i co to wszystko ma wspólnego z regresją procesu Gaussa. RKHS jest zamknięciem przestrzeni wektorowej utworzonej przez wszystkie możliwe skończone liniowe kombinacje wszystkich możliwych funkcji w którym . Jest to bardzo ściśle związane z regresją procesu Gaussa, ponieważ biorąc pod uwagę proces Gaussa przed na przestrzeni , a następnie (zamknięcie) przestrzenią wszystkich możliwych tylnych środków, które można wygenerować za pomocą regresji procesu Gaussa, jest dokładnie RKHS. W rzeczywistości wszystkie możliwe tylne środki mają formęf y ( x ) = k ( x , y ) y ∈ X G P ( 0 , k ( x , xK(X) fy(x)=k(x,y) y∈X GP(0,k(x,x)) C(X)
tzn. są skończonymi liniowymi kombinacjami funkcji . Tak więc, że skuteczne z zapytaniem, czy z uwagi na Gaussa procesu przed o , dla każdej funkcji jest jest zawsze funkcją w przestrzeni (zamknięciu) wszystkich funkcji, które mogą być generowane przez GPR, która jest tak bliska, jak to pożądane dla .fxi(x)=k(x,xi) GP(0,k(x,x)) C(X) f∈C(X) f∗ f
Odpowiedź, w przypadku niektórych konkretnych jąder (w tym klasycznego jądra z kwadratem wykładniczym, ale bez jądra wielomianowego) brzmi „ tak” . Można udowodnić, że dla takich jąder jest gęsty w , tj. Dla dowolnego i dla dowolnej tolerancji , istnieje w takie jak że . Zwróć uwagę na założenia: jest zwarty, jest ciągły, a jest ciągłym jądrem posiadającym tak zwaną uniwersalną właściwość aproksymacji. Zobacz tutajC ( X ) f ∈ C ( X ) ϵ fK(X) C(X) f∈C(X) ϵ K ( X ) | | f - f ∗ | | ∞ < ϵ X f kf∗ K(X) ||f−f∗||∞<ϵ X f k dla pełnego dowodu w bardziej ogólnym (skomplikowanym) kontekście.
Ten wynik jest znacznie słabszy niż na pierwszy rzut oka. Nawet jeśli znajduje się w (zamknięciu) przestrzeni tylnych środków, które mogą być generowane przez GPR, nie udowodniliśmy, że jest to szczególna tylna średnia zwrócona przez GPR, dla zestawu treningowego wystarczająco dużego, gdzie oczywiście zestaw treningowy składa się z głośnych obserwacji w punktach . Nie udowodniliśmy nawet, że tylna wartość zwrócona przez GPR w ogóle się zbiega, dla ! To właściwie druga interpretacja zaproponowana przez @Dougal. Odpowiedź na to pytanie zależy od odpowiedzi na pierwsze pytanie: jeśli nie ma żadnej funkcji f x 1 , … , x n n → ∞ f ∗ ff∗ f x1,…,xn n→∞ f∗ w RKHS, który jest „dobrym przybliżeniem” do , oczywiście nie możemy mieć nadziei, że tylna wartość zwrócona przez GPR będzie do niej zbieżna. To jednak inne pytanie. Jeśli chcesz również uzyskać odpowiedź na to pytanie, zadaj nowe pytanie.f
źródło