Jaki jest związek między filtrem Kalmana a regresją wielomianową?

56

Jaki jest związek, jeśli w ogóle, między filtrowaniem Kalmana a (powtarzaną, jeśli to konieczne) regresją wielomianową metodą najmniejszych kwadratów?

hotpaw2
źródło
Od samego początku, dzięki filtrowaniu Kalmana nie mamy dostępu do przyszłych wartości (stąd część przewidywana), podczas gdy w dopasowaniu mamy przed sobą cały zestaw danych, do którego najlepiej dopasować dane. Świetne pytanie jednak! +1.
Spacey
@Mohammad: Gdzie widzisz wymóg karmienia dwiema metodami różne (podzbiory) punktów danych?
hotpaw2
Regresja wielomianowa @Mohammad MOŻE ekstrapolować i dlatego może być wykorzystana do prognozowania w przyszłości.
Dipan Mehta
@DipanMehta / @ hotpaw2 Hmm, chyba nie zdawałem sobie z tego sprawy. AFAIK dla poli musimy wcześniej mieć dostęp do całego zestawu danych, aby obliczyć najlepsze dopasowanie. (przetwarzanie offline). Chociaż teraz, gdy o tym myślę, przypuszczam, że wersja online może również działać ... rozwiązalibyśmy wszystko, aby uzyskać jak najlepsze dopasowanie za każdym razem, gdy pojawia się nowa próbka. Ale gdzie byłaby „prognoza”?
Spacey
@Mohammad nie zagłębia się w matematykę - ale w zasadzie dotyczy to każdej regresji. Jeśli masz wektor szkoleniowy i zastosowałeś i parametry modelu teraz masz inny o długości ekstrapolacji, możesz uzyskać najlepszą ocenę stosując ten sam model jak powyżej, co jest niczym innym jak prognozowaniem. Kiedy faktycznie na podstawie błędu, masz szansę zaktualizować / ulepszyć model. XtYtα[i]XkYKYK
Dipan Mehta

Odpowiedzi:

49

1. Istnieje różnica pod względem kryteriów optymalności

Filtr Kalmana jest estymatorem liniowym. Jest to liniowy optymalny estymator - tzn. Oblicza parametry modelubędąceprzedmiotem zainteresowania na podstawie obserwacji pośrednich, niedokładnych i niepewnych.

Ale w jakim sensie optymalny? Jeśli cały szum jest gaussowski, filtr Kalmana minimalizuje średni błąd kwadratowy oszacowanych parametrów. Oznacza to, że gdy hałas leżący u podłoża NIE jest gaussowski, obietnica już nie dotrzymuje. W przypadku nieliniowej dynamiki wiadomo, że problem estymacji stanu staje się trudny. W tym kontekście żaden schemat filtrowania nie przewyższa wszystkich innych strategii. W takim przypadku estymatory nieliniowe mogą być lepsze, jeśli mogą lepiej modelować system z dodatkowymi informacjami. [Patrz Ref 1-2]

Regresja wielomianowa jest formą regresji liniowej, w której związek między zmienną niezależną x a zmienną zależną y modeluje się jako wielomian n-tego rzędu.

Y=a0+a1x+a2x2+ϵ

Należy zauważyć, że chociaż regresja wielomianowa pasuje do danych model nieliniowy, wszystkie modele są liniowe z punktu widzenia estymacji, ponieważ funkcja regresji jest liniowa pod względem nieznanych parametrów . Jeśli traktujemy jako różne zmienne, regresję wielomianową można również traktować jako wielokrotną regresję liniową .a0,a1,a2x,x2

Modele regresji wielomianowej są zwykle dopasowane przy użyciu metody najmniejszych kwadratów. Również w metodzie najmniejszych kwadratów minimalizujemy średni błąd kwadratowy. Metoda najmniejszych kwadratów minimalizuje wariancję obiektywnych estymatorów współczynników w warunkach twierdzenia Gaussa-Markowa . Twierdzenie to stwierdza, że zwykłe najmniejsze kwadraty (OLS) lub liniowe najmniejsze kwadraty to najlepszy liniowy niezbadany estymator (NIEBIESKI) pod następującymi warunkami:

za. gdy błędy mają zero, tj. b. mają równe wariancje tj. c. a błędy są nieskorelowane, tj.E(ei)=0
Variance(ei)=σ2<
cov(ei,ej)=0

UWAGA: w tym przypadku błędy nie muszą być gaussowskie ani nie muszą być IID. To musi być tylko nieskorelowane.

2. Filtr Kalmana jest ewolucją estymatorów od najmniejszych kwadratów

W 1970 r. HW Sorenson opublikował artykuł IEEE Spectrum zatytułowany „Szacowanie metodą najmniejszych kwadratów: od Gaussa do Kalmana. [Patrz Ref. 3]. Jest to przełomowy artykuł, który zapewnia doskonały wgląd w to, jak oryginalny pomysł Gaussa na najmniejszych kwadratów do współczesnego współczesnego estymatory takie jak Kalman.

Praca Gaussa nie tylko wprowadziła ramy najmniejszych kwadratów, ale w rzeczywistości była jedną z najwcześniejszych prac wykorzystujących pogląd probabilistyczny. Podczas gdy najmniejsze kwadraty ewoluowały w postaci różnych metod regresji, nastąpiła kolejna krytyczna praca, która wykorzystała teorię filtrów jako estymator.

Teorię filtrowania, która ma być stosowana do estymacji stacjonarnych szeregów czasowych, skonstruował Norbert Wiener w latach 40. XX wieku (podczas II wojny światowej) i opublikował w 1949 r., Który jest obecnie znany jako filtr Wienera. Praca została wykonana znacznie wcześniej, ale została sklasyfikowana dopiero po II wojnie światowej). Dyskretny ekwiwalent pracy Wienera został opracowany niezależnie przez Kołmogorowa i opublikowany w 1941 r. Dlatego teoria ta często nazywana jest teorią filtrowania Wienera-Kołmogorowa .

Tradycyjnie filtry są zaprojektowane dla pożądanej odpowiedzi częstotliwościowej. Jednak w przypadku filtra Wienera zmniejsza on ilość szumu obecnego w sygnale w porównaniu z oszacowaniem pożądanego sygnału bezszumowego. Filtr Weiner jest w rzeczywistości estymatorem. Jednak w ważnym artykule Levinson (1947) [patrz Ref. 6] wykazał, że w dyskretnym czasie całą teorię można sprowadzić do najmniejszych kwadratów, a zatem była bardzo prosta matematycznie. Zobacz Ref 4

Widzimy zatem, że praca Weinera dała nowe podejście do problemu szacowania; ewolucja od używania najmniejszych kwadratów do innej ugruntowanej teorii filtrów. Jednak krytycznym ograniczeniem jest to, że filtr Wienera zakłada, że ​​wejścia są nieruchome. Można powiedzieć, że filtr Kalmana jest kolejnym krokiem w ewolucji, który odrzuca stacjonarne kryteria. W filtrze Kalmana model przestrzeni stanów może być dynamicznie dostosowywany do radzenia sobie z niestacjonarną naturą sygnału lub systemu.

Filtry Kalmana oparte są na liniowych układach dynamicznych w dyskretnej dziedzinie czasu. Dlatego jest w stanie poradzić sobie z sygnałem potencjalnie zmieniającym się w czasie, w przeciwieństwie do Wienera. Gdy artykuł Sorensona rysuje się równolegle między najmniejszymi kwadratami Gaussa a filtrem Kalmana jako

... dlatego widać, że podstawowe założenia Gaussa i Kalmana są identyczne, z wyjątkiem tego, że później pozwala to na zmianę stanu od czasu do czasu. Różnica wprowadza niebanalną modyfikację problemu Gaussa, ale taką, którą można leczyć w ramach najmniejszych kwadratów.

3. Są one takie same, jeśli chodzi o kierunek przyczynowości prognozowania; oprócz wydajności wdrażania

Czasami postrzega się, że filtr Kalmana służy do przewidywania przyszłych zdarzeń na podstawie danych z przeszłości, gdy regresja lub najmniejsze kwadraty wygładzają się w punktach końcowych. To nie jest do końca prawda. Czytelnicy powinni zauważyć, że zarówno estymatory (jak i prawie wszystkie estymatory, o których możesz pomyśleć) mogą wykonywać dowolną pracę. Możesz zastosować filtr Kalmana, aby zastosować wygładzanie Kalmana .

Podobnie modele predykcyjne mogą być również wykorzystane do przewidywania. Biorąc pod uwagę wektor szkolenia, i zastosowałeś i parametry modelu teraz dla innej próbki możemy ekstrapolować na podstawie modelu.XtYtα0...aKXkYK

Dlatego obie metody mogą być stosowane w postaci wygładzania lub dopasowania (bez przyczynowego), a także do przyszłych prognoz (przypadek przyczynowy). Jednak kluczową różnicą jest implementacja, która jest znacząca. W przypadku regresji wielomianowej - cały proces musi zostać powtórzony, a zatem możliwe jest wdrożenie oszacowania przyczynowego, ale może to być kosztowne obliczeniowo. [Chociaż jestem pewien, że do tej pory trzeba przeprowadzić jakieś badania, aby iterować].

Z drugiej strony filtr Kalmana jest z natury rekurencyjny. Dlatego wykorzystanie go do prognozowania w przyszłości tylko na podstawie danych z przeszłości będzie bardzo wydajne.

Oto kolejna dobra prezentacja, która porównuje kilka metod: Ref 5

Bibliografia

  1. Najlepsze wprowadzenie do filtra Kalmana - Dan Simon Kalman Filtrowanie programowania systemów wbudowanych CZERWIEC 2001 strona 72

  2. Prezentacja: Lindsay Kleeman Zrozumienie i stosowanie filtrowania Kalmana

  3. HW Sorenson Oszacowanie metodą najmniejszych kwadratów: od Gaussa do Kalmana IEEE Spectrum, lipiec 1970 r. Str. 63–68.

  4. Wykład Nota MIT Artykuły do ​​kursu

  5. Prezentacja Simo Särkkä Od regresji liniowej po filtr Kalmana i Politechnikę Helsińską

  6. Levinson, N. (1947). „Kryterium błędu RMS firmy Wiener w projektowaniu i prognozowaniu filtrów”. J. Math. Phys., V. 25, s. 261–278.

Dipan Mehta
źródło
Bardzo fajny podział!
Spacey
1
Link „Zrozumienie i stosowanie filtrowania Kalmana” jest zepsuty. Myślę, że ten link działa: cs.cmu.edu/~motionplanning/papers/sbp_papers/integrated3/…
Vinod
Co za świetna odpowiedź. To jest powód, dla którego ta strona jest taka świetna!
Royi
Fantastyczna odpowiedź, czasem trudno jest znaleźć odpowiedzi na proste, ale podstawowe pytania, takie jak to
ZiglioUK
6

Różnica jest dość duża, ponieważ są to dwa zupełnie różne modele, których można użyć do rozwiązania tego samego problemu. Zróbmy krótkie podsumowanie.

Regresja wielomianowa jest sposobem aproksymacji funkcji. Mamy zestaw danych w postaci i chcemy ustalić zależność funkcjonalną, która często jest wyrażana przez oszacowanie gęstości prawdopodobieństwa . Przy założeniu, że jest Gaussowskim, otrzymujemy rozwiązanie najmniejszych kwadratów jako estymator maksymalnego prawdopodobieństwa.{xi,zi}p(z|x)p

Filtrowanie Kalmana jest specjalnym sposobem wnioskowania w liniowym układzie dynamicznym. LDS są szczególnym przypadkiem modeli przestrzeni stanów, w których zakładamy, że obserwowane dane są generowane przez zastosowanie transformacji liniowej do kolejnych kroków łańcucha Markowa nad losowymi zmiennymi Gaussa. Tak więc to, co faktycznie robimy, to model , który jest prawdopodobieństwem szeregu czasowego. Proces filtrowania Kalmana polega następnie na przewidywaniu następnej wartości szeregu czasowego, np. Maksymalizacji . Ale ten sam model może być wykorzystywany do wnioskowania na temat wygładzania, interpolacji i wielu innych rzeczy.p(x1:T)p(xt+1|x1:t)

Zatem: regresja wielomianowa działa w przybliżeniu, filtrowanie Kalmana przewiduje przewidywanie szeregów czasowych. Dwie zupełnie różne rzeczy, ale przewidywanie szeregów czasowych jest szczególnym przypadkiem przybliżenia funkcji. Ponadto oba modele opierają całkiem różne założenia na obserwowanych danych.

Bayer
źródło
Jakie są różne założenia dotyczące obserwowanych danych?
hotpaw2
1
@ hotpaw2, PR: dane są generowane przez wielomian z dodatkowym szumem Gaussa. LDS: dane są generowane przez nieobserwowany łańcuch Markowa zmiennych rozproszonych Gaussa, który odnosi się liniowo do obserwowanych danych.
bayer
5

Nie jestem ekspertem od filtrów Kalmana, jednak uważam, że tradycyjne filtrowanie Kalmana zakłada liniowy związek między obserwowalnymi danymi a danymi, które chcesz wnioskować, w przeciwieństwie do bardziej skomplikowanych filtrów , takich jak filtry Extended Kalman, które mogą przyjmować relacje nieliniowe.

Mając to na uwadze, uważam, że w przypadku tradycyjnego filtra Kalmana regresja liniowa online byłaby podobna do wydajności Kalmana. Można jednak zastosować regresję wielomianową, która zakłada nieliniowy związek, którego tradycyjny Kalman może nie być w stanie uchwycić.

Spacey
źródło
4

Filtrowanie Kalmana daje wiele prognoz dla następnego stanu, w którym ekstrapolacja regresji nie byłaby możliwa.

Filtry Kalmana koncentrują się również na uwzględnianiu czynników szumowych (w oparciu o rozkłady Gaussa).

Geerten
źródło
Wiele prognoz? A może pojedynczy wielowymiarowy wektor prognozy? (Jakie wielowymiarowa regresja liniowa lub wielomianowa mogłaby zapewnić?)
hotpaw2
Wiele prognoz dla każdego wymiaru / zmiennej (wraz z pewnością, że ta prognoza jest właściwa). Jest to związane ze sposobem włączenia hałasu do prognozy.
Geerten
Nie do końca prawda. PR daje również dystrybucję, po prostu nie jest powszechnie stosowana. Ponadto, jeśli używasz regresji wielomianowej z najmniejszymi kwadratami do przewidywania szeregów czasowych, jest to dokładnie ten sam model szumu, co w przypadku filtra Kalmana.
bayer
3

Wiele już powiedziano, pozwólcie, że dodam kilka komentarzy:

Filtry Kalmana są zastosowaniem Bayesowskiej teorii prawdopodobieństwa, co oznacza, że ​​„informacje a priori” lub „wcześniejsza niepewność” mogą (i muszą) zostać określone. Jak rozumiem, nie dotyczy to tradycyjnego dopasowania najmniejszych kwadratów. Podczas gdy obserwacje (dane) mogą być ważone prawdopodobieństwami w dopasowaniu LSQ, wcześniejsza znajomość rozwiązania nie może być łatwo wzięta pod uwagę.

Podsumowując, rozwiązania znalezione przez KF będą zależeć od

a) model zapewniający „prognozy”

b) pomiary, które są „obserwacjami”

c) niepewność prognoz i obserwacji

d) a priori znajomość rozwiązania.

„wcześniejsza wiedza” jest określona jako wariant wstępnego przypuszczenia, ale nie jest istotna ani wykorzystywana w takim samym stopniu w każdym zastosowaniu.

Jak wspomniano wcześniej, powszechnym zastosowaniem KF jest redukcja hałasu podczas obserwacji w czasie rzeczywistym. Porównanie obserwacji z przewidywaniami modelu może pomóc oszacować „prawdziwy pomiar” pozbawiony hałasu. Ta popularna aplikacja powoduje, że KF nazywa się filtrem.

Wstępne domysły w tym przykładzie byłyby założonym rozwiązaniem w czasie zero, od którego rozpoczyna się KF, z powiązaną „wcześniejszą niepewnością”. Często będziesz mieć pewne nieznane parametry w modelu predykcyjnym, ale które mogą być ograniczone przez pomiary, tj. Są „obserwowalne”. KF poprawi swoje oszacowania zarówno tych parametrów, jak i „prawdziwych pomiarów” w miarę przemieszczania się w szeregach czasowych danych. W takim przypadku często określa się stan początkowy, aby po prostu skutkować spójną wydajnością filtrowania: definiowany jako faktyczne błędy oszacowania mieszczące się w granicach niepewności, które KF zapewnia swoim rozwiązaniem. W tym przykładzie wcześniejszą niepewność stanu początkowego można określić jako dużą, co daje KF możliwość korekty zawartych w nim błędów. Można również określić małe wartości,

Ten obszar projektowania KF może wymagać prób i błędów lub oceny technicznej w celu przedstawienia wartości stanu początkowego i jego niepewności, które skutkują dobrą wydajnością. Z tego powodu, ten i inne aspekty konstrukcji filtra KF, które obejmują określenie niepewności, które skutkują dobrą wydajnością (czy to numerycznie, szacowanie, przewidywanie ...) są często nazywane „dostrajaniem filtrów”.

Ale w innych zastosowaniach można zastosować bardziej rygorystyczne i użyteczne podejście do wcześniejszych niepewności. Poprzedni przykład dotyczył szacowania w czasie rzeczywistym (aby odfiltrować szum z niepewnych pomiarów). Stan początkowy i jego wariancja (wcześniejsza niepewność) są niemal niezbędnym złem do zainicjowania filtra we wczesnym czasie, po czym stan początkowy staje się coraz bardziej nieistotny, ponieważ przyszłe obserwacje są wykorzystywane do poprawy szacunków. Rozważmy teraz filtr Kalmana zastosowany do pomiarów i prognoz modelu w określonym czasie t_s. Mamy niepewne obserwacje, niepewny model, ale mamy też wcześniejszą wiedzę na temat poszukiwanego rozwiązania. Powiedzmy, że znamy jego Gaussowski PDF: średnia i wariancja. W takim przypadku rozwiązanie może bardzo silnie zależeć od wcześniejszej niepewności, co oznacza punkt d) powyżej,

Ta funkcja, która jest fundamentalna dla teorii bayesowskiej, pozwala KF rozwiązywać problemy stochastyczne, biorąc pod uwagę każdy rodzaj niepewności / informacji, które są zazwyczaj dostępne. Ponieważ KF jest rozwijany i stosowany od dziesięcioleci, jego podstawowe funkcje nie zawsze są szczegółowo opisane. Z mojego doświadczenia wynika, że ​​wiele artykułów i książek koncentruje się na optymalności i linearyzacji (rozszerzony KF, bezzapachowy KF itd.). Ale znalazłem świetne opisy powiązań między teorią bayesowską a KF, czytając artykuły wprowadzające i teksty na temat „filtrów cząstek”. To kolejna i nowsza implementacja estymacji bayesowskiej, sprawdź je, jeśli jesteś zainteresowany!

Bart Van Hove
źródło
1
Czy można uzyskać podobny efekt aktualizacji bayesowskiej (zapewniony przez użycie filtru Kalmana) poprzez dodanie niektórych wcześniejszych punktów danych a priori / przewidywanych / odgadniętych (średnia i wariancja) przed danymi rzeczywistymi, a następnie zastosowanie iteracyjnej regresji wielomianowej metodą najmniejszych kwadratów do zaktualizować prognozę (i wariancję lub współczynnik regresji) w miarę pojawiania się rzeczywistych danych?
hotpaw2
Chociaż możliwe jest przesunięcie funkcji w kierunku danych „a priori” (które nie różniłyby się od innych danych, oprócz nazwy, którą im nadamy), właściwy sposób łączenia niepewności w warunkach warunkowych (a priori + obserwacje = a posteriori) jest zdefiniowany w teorii Bayesa. Nie twierdzę, że niemożliwe jest odtworzenie wyniku bayesowskiego w inny sposób, ale dopasowanie danych i twierdzenie bayesowskie to różne rzeczy i tylko to drugie zostało stworzone w celu uzyskania prawidłowych statystyk. Oczekuję, że istnieje różnica między dodawaniem obserwacji a obliczaniem prawdopodobieństw warunkowych.
Bart Van Hove
To rozwiązanie koncentruje się na użyciu, więc go ulepszyłem.
rrogers
Interesujący może być również ten wątek StackExchange, pytanie jest bardzo podobne do twojego, ale porównuje dopasowanie wielomianowe z ogólnym wnioskowaniem Bayesowskim, którego przykładem jest filtr Kalmana. stats.stackexchange.com/questions/252577/…
Bart Van Hove
Aby dać więcej kontekstu: filtry Kalmana są szczególną metodą rozwiązania ogólnych problemów bayesowskich, a szczególnie odpowiednią w przypadku problemów związanych z szeregami czasowymi danych (np. Oszacowanie online). Temat, który podłączyłem powyżej, dotyczy ogólnego bayesowskiego traktowania problemu regresji, w którym wszystkie dane są wykorzystywane jednocześnie, co jest bardziej podobne do dopasowania wielomianowego niż internetowe filtrowanie Kalmana, jak wspomniano w kilku odpowiedziach tutaj.
Bart Van Hove