Zrozumienie regresji procesu Gaussa poprzez nieskończony wymiarowy widok funkcji bazowej

14

Często mówi się, że regresja procesu gaussowskiego odpowiada (GPR) bayesowskiej regresji liniowej z (być może) nieskończoną ilością funkcji bazowych. Obecnie staram się to szczegółowo zrozumieć, aby uzyskać intuicję, jakie modele mogę wyrazić za pomocą GPR.

  1. Czy uważasz, że to dobre podejście do zrozumienia GPR?

W książce Procesy gaussowskie dla uczenia maszynowego Rasmussen i Williams pokazują, że zestaw procesów gaussowskich opisanych przez sparametryzowane jądro wykładnicze w kwadracie można równoważnie opisać jako regresję bayesowską z wcześniejszym przekonaniemwN(0,σ 2 p I)o wagach i nieskończoną ilością funkcji bazowych postaciϕc(x;l)=exp(-(x-c)2

k(x,x;l)=σp2)exp(-(x-x)2)2)l2))
wN.(0,σp2)ja) Tak więc parametryzacja jądra mogłaby w pełni przełożyć się na parametryzację funkcji podstawowych.
ϕdo(x;l)=exp(-(x-do)2)2)l2))
  1. Czy parametryzację zróżnicowanego jądra zawsze można przełożyć na parametryzację wcześniejszych i podstawowych funkcji, czy też istnieją zróżnicowane jądra, w których np. Liczba funkcji podstawowych zależy od konfiguracji?

k(x,x)

k(x,x)=ja=1λjaϕja(x)ϕja(x)
ϕjawN.(0,diag([λ12),]))ϕjak(x,x,θ)θ

Moje następne pytanie dotyczy odwrotności twierdzenia mercerów.

  1. Które zestawy funkcji podstawowych prowadzą do prawidłowych jąder?

I rozszerzenie

  1. Które zestawy sparametryzowanych funkcji bazowych prowadzą do prawidłowych zróżnicowanych jąder?
Julian Karls
źródło

Odpowiedzi:

1

Oto kilka uwag. Być może ktoś inny może podać szczegóły.

1) Reprezentacje podstawowe są zawsze dobrym pomysłem. Trudno ich uniknąć, jeśli chcesz rzeczywiście wykonać obliczenia za pomocą funkcji kowariancji. Podstawowa rozbudowa może dać ci przybliżenie do jądra i coś do pracy. Mamy nadzieję, że znajdziesz podstawę, która ma sens dla problemu, który próbujesz rozwiązać.

θθ

Zazwyczaj liczba funkcji bazowych będzie (licznie) nieskończona, więc liczba nie będzie się zmieniać wraz z parametrem, chyba że niektóre wartości spowodują degenerację jądra.

wN.(0,rejazasol[λ12),])wrejazasol[λ12),]

3) Który zestaw funkcji podstawowych tworzy prawidłowe jądra? Jeśli myślisz o podstawach własnych, funkcje muszą być ortogonalne w odniesieniu do pewnej miary. Istnieją dwa problemy. 1) Wynikowe jądro musi być zdecydowanie dodatnie ... i to jest OK, jeśliλjaλjax

Jeśli funkcje podstawowe nie są ortogonalne, trudniej będzie wykazać, że zdefiniowana na ich podstawie kowariancja jest dodatnia. Oczywiście w tym przypadku nie masz do czynienia z ekspansją własną, ale z innym sposobem przybliżenia funkcji zainteresowania.

Jednak nie sądzę, że ludzie zwykle zaczynają od szeregu funkcji, a następnie próbują zbudować z nich jądro kowariancji.

RE: Różniczkowalność jądra i różniczkowalność funkcji podstawowych. Właściwie nie znam odpowiedzi na to pytanie, ale proponuję następujące spostrzeżenie.

Analiza funkcjonalna przebiega przez aproksymowanie funkcji (z nieskończonej przestrzeni wymiarowej) skończonymi sumami prostszych funkcji. Aby to zadziałało, wszystko zależy od rodzaju konwergencji. Zazwyczaj, jeśli pracujesz nad zwartym zestawem o silnych właściwościach konwergencji (jednolita zbieżność lub absolutna sumowalność) funkcji, uzyskujesz rodzaj intuicyjnego rezultatu, którego szukasz: właściwości prostych funkcji przechodzą na funkcja limitu - np. jeśli jądro jest funkcją różniczkowalną parametru, funkcje rozszerzające muszą być funkcjami różnicowalnymi tego samego parametru i odwrotnie. W przypadku słabszych właściwości konwergencji lub domen kompaktowych tak się nie dzieje. Z mojego doświadczenia wynika, że ​​każdy „rozsądny” pomysł, jaki sobie wymyślisz, stanowi przeciwny przykład.

Uwaga: Aby zapobiec możliwemu zamieszaniu ze strony czytelników tego pytania, zwróć uwagę, że ekspansja Gaussa w punkcie 1 nie jest przykładem ekspansji własnej w punkcie 2.

Placidia
źródło