Używam procesu Gaussa (GP) do regresji.
W moim problemie dość często zdarza się, że dwa lub więcej punktów danych są blisko siebie, względem długości skale problemu. Obserwacje mogą być również bardzo głośne. Aby przyspieszyć obliczenia i poprawić precyzję pomiaru , naturalne wydaje się łączenie / integrowanie skupisk punktów, które są blisko siebie, o ile zależy mi na prognozach w większej skali.
Zastanawiam się, jaki jest szybki, ale częściowo oparty na zasadach sposób na osiągnięcie tego.
Jeśli dwa punkty danych idealnie się pokrywają, , a szum obserwacyjny (tj. Prawdopodobieństwo) jest gaussowski, być może heteroskedastyczny, ale znany , naturalny sposób postępowania wydaje się łączyć je w jednym punkcie danych z:
, dla .
Obserwowana wartość która jest średnią z obserwowanych wartości ważonych ich względną dokładnością: .
Hałas związany z obserwacją równy: .
Jak jednak połączyć dwa punkty, które są blisko siebie, ale się nie nakładają?
Myślę, że nadal powinien być średnią ważoną dwóch pozycji, ponownie używając względnej niezawodności. Uzasadnienie jest argumentem środka masy (tzn. Pomyśl o bardzo dokładnej obserwacji jako o stosie mniej precyzyjnych obserwacji).
Dla taka sama formuła jak powyżej.
Jeśli chodzi o hałas związany z obserwacją, zastanawiam się, czy oprócz powyższej formuły powinienem dodać do poprawki składnik korekcji, ponieważ przesuwam punkt danych. Zasadniczo uzyskałbym wzrost niepewności związany z i (odpowiednio, wariancja sygnału i skala długości funkcji kowariancji). Nie jestem pewien formy tego terminu, ale mam pewne wstępne pomysły, jak go obliczyć, biorąc pod uwagę funkcję kowariancji.
Przed kontynuowaniem zastanawiałem się, czy coś już tam jest; a jeśli wydaje się to rozsądnym sposobem postępowania, lub istnieją lepsze szybkie metody.
Najbliższą rzeczą, jaką mogłem znaleźć w literaturze, jest ten artykuł: E. Snelson i Z. Ghahramani, Rzadkie procesy gaussowskie z wykorzystaniem pseudo-danych wejściowych , NIPS '05; ale ich metoda jest (względnie) zaangażowana, wymagając optymalizacji w celu znalezienia pseudo-danych wejściowych.
Odpowiedzi:
Świetne pytanie i to, co sugerujesz, brzmi rozsądnie. Jednak osobiście postąpiłbym inaczej, aby być skutecznym. Jak powiedziano, dwa bliskie punkty dostarczają niewiele dodatkowych informacji, a zatem efektywny stopień swobody modelu jest mniejszy niż liczba zaobserwowanych punktów danych. W takim przypadku warto zastosować metodę Nystroms, która jest dobrze opisana w GPML (rozdział o rzadkich przybliżeniach można znaleźć na stronie http://www.gaussianprocess.org/gpml/ ). Metoda jest bardzo łatwa do wdrożenia i niedawno została udowodniona przez Rudi i in. ( http://arxiv.org/abs/1507.04717 )
źródło
Badałem także łączące się obserwacje podczas regresji procesu Gaussa. W moim problemie mam tylko jedną zmienną towarzyszącą.
Nie jestem pewien, czy zgadzam się, że przybliżenie Nystrom jest lepsze. W szczególności, jeśli można znaleźć wystarczające przybliżenie w oparciu o scalony zestaw danych, obliczenia mogą być szybsze niż w przypadku zastosowania przybliżenia Nystrom.
Poniżej znajdują się wykresy przedstawiające 1000 punktów danych i średnią GP tylnej, średnią GP tylnej ze scalonymi zapisami oraz średnią GP tylnej przy użyciu aproksymacji Nystrom. Rekordy zostały pogrupowane na podstawie równych rozmiarów segmentów uporządkowanej współzmiennej. Kolejność aproksymacji odnosi się do liczby grup podczas łączenia rekordów i kolejności aproksymacji Nystrom. Metoda łączenia i aproksymacja Nystroma dają wyniki identyczne ze standardową regresją GP, gdy porządek aproksymacji jest równy liczbie punktów.
W takim przypadku, gdy kolejność aproksymacji wynosi 10, podejście łączące wydaje się preferowane. Gdy rząd wynosi 20, średnia z przybliżenia Nystrom jest wizualnie nie do odróżnienia od dokładnej średniej tylnej GP, chociaż średnia oparta na łączeniu obserwacji jest prawdopodobnie wystarczająca. Gdy zamówienie wynosi 5, oba są dość słabe.
źródło