Próbowałem uzyskać intuicję w regresji procesu Gaussa, więc podjąłem prosty problem z zabawką 1D, aby wypróbować. wziąłem jako dane wejściowe, oraz jako odpowiedzi. („Inspirowane” z)
Do regresji użyłem standardowej kwadratowej wykładniczej funkcji jądra:
Założyłem, że z odchyleniem standardowym był hałas , dzięki czemu macierz kowariancji stała się:
Hiperparametry zostały oszacowane przez maksymalizację logarytmu prawdopodobieństwa danych. Aby dokonać prognozy w punkcieZnalazłem odpowiednio średnią i wariancję w następujący sposób
gdzie jest wektorem kowariancji pomiędzy i dane wejściowe, oraz jest wektorem wyników.
Moje wyniki dla pokazano poniżej. Niebieska linia jest średnią, a czerwone linie oznaczają standardowe przedziały odchyleń.
Nie jestem jednak pewien, czy to prawda; moje dane wejściowe (oznaczone „X”) nie leżą na niebieskiej linii. Widzę większość przykładów przecinających dane wejściowe. Czy należy się tego spodziewać?
źródło
Odpowiedzi:
Średnia funkcja przechodząca przez punkty danych jest zwykle oznaką nadmiernego dopasowania. Optymalizacja hiperparametrów przez maksymalizację marginalnego prawdopodobieństwa będzie sprzyjać bardzo prostym modelom, chyba że będzie wystarczającej ilości danych, aby uzasadnić coś bardziej złożonego. Ponieważ masz tylko trzy punkty danych, które są mniej więcej w linii z niewielkim hałasem, znaleziony model wydaje mi się dość rozsądny. Zasadniczo dane można albo wyjaśnić jako liniową funkcję leżącą u podstaw z umiarkowanym szumem, albo umiarkowanie nieliniową funkcję leżącą u podstawy z niewielkim hałasem. Ta pierwsza jest prostszą z dwóch hipotez i jest faworyzowana przez „brzytwę Ockhama”.
źródło
Używasz estymatorów Kriginga z dodatkiem terminu szumu (znanego jako efekt samorodek w literaturze procesowej Gaussa). Jeśli wartość szumu została ustawiona na zero, tzn.
wtedy twoje przewidywania działałyby jak interpolacja i przechodziły przez przykładowe punkty danych.
źródło
Wydaje mi się to OK, w książce lekarza ogólnego autorstwa Rasmussena zdecydowanie pokazuje przykłady, w których funkcja średniej nie przechodzi przez każdy punkt danych. Zauważ, że linia regresji jest oszacowaniem dla funkcji leżącej u podstaw i zakładamy, że obserwacje są wartościami funkcji leżącymi u podstaw plus szum. Jeśli linia regresji oparta na wszystkich trzech punktach zasadniczo mówi, że w obserwowanych wartościach nie ma hałasu.
Możesz wymusić założenie, że nie ma hałasu, ustawiającσn= 0 i po prostu optymalizując inne hiper-parametry.
Podejrzewam też, że hiper-parmeterl jest ustawiany na stosunkowo dużą wartość, co daje bardzo płytką funkcję.
Możesz spróbować trzymaćl naprawiono przy różnych mniejszych wartościach i zobacz, jak to zmienia krzywą. Może gdybyś zmusiłl aby być nieco mniejszym, linia regresji przejdzie przez wszystkie punkty danych.
Jak zauważył Dikran Marsupial, jest to wbudowana funkcja Procesów Gaussa, krańcowe prawdopodobieństwo karze modele, które są zbyt specyficzne i preferuje te, które mogą wyjaśnić wiele zestawów danych.
źródło