Jakie są zalety / wady stosowania splajnów, wygładzonych splajnów i emulatorów procesu gaussowskiego?

20

Interesuje mnie nauka (i wdrażanie) alternatywy dla interpolacji wielomianowej.

Mam jednak problem ze znalezieniem dobrego opisu działania tych metod, ich powiązań i porównania.

Byłbym wdzięczny za Twój wkład w zalety / wady / warunki, w których te metody lub alternatywy byłyby przydatne, ale wystarczą dobre odniesienia do tekstów, slajdów lub podcastów.

David LeBauer
źródło
To rzeczywiście bardzo interesujące pytanie, ale może (tylko może) bardziej odpowiednie dla math.stackexchange.com ?
steffen
W Elementach uczenia statystycznego autorstwa Hastie i in. Znajduje się materiał na temat splajnów i wygładzania splajnów .
NPE
8
Myślę, że jest to całkowicie uzasadnione pytanie dotyczące statystyki obliczeń.
csgillespie
@csgillespie: Wszystko, co wiem o splajnach i interpolacji, nauczyłem się na wykładach numerycznych / matematycznych. Dlatego mogę być trochę stronniczy;).
steffen

Odpowiedzi:

24

Podstawowa regresja OLS jest bardzo dobrą techniką dopasowania funkcji do zestawu danych. Jednakże Regresja pasuje tylko do linii prostej, która jest stała w całym możliwym zakresie . Może to nie być odpowiednie w danej sytuacji. Na przykład dane czasami pokazują związek krzywoliniowy . Można temu zaradzić poprzez regresję Y na transformację X , f ( X ) . Możliwe są różne transformacje. W sytuacjach, w których związek między X i Y jest monotoniczny , ale stale się zmniejsza, transformacja logówXYXf(X)XYmoże być użyte. Innym popularnym wyborem jest użycie wielomianu, w którym nowe warunki są tworzone przez podniesienie do szeregu potęg (np. X 2 , X 3 itd.). Ta strategia jest łatwa do wdrożenia i można zinterpretować dopasowanie jako wskazujące, ile „zagięć” istnieje w danych (gdzie liczba zagięć jest równa najwyższej potrzebnej mocy minus 1). XX2X3

Jednak regresje oparte na logarytmie lub wykładniku współzmiennej pasują optymalnie tylko wtedy, gdy taka jest dokładna natura prawdziwej relacji. Rozsądne jest wyobrażenie sobie, że istnieje zależność między krzywiznami między a YXY która różni się od możliwości, jakie dają te transformacje. Tak więc dochodzimy do dwóch innych strategii. Pierwszym podejściem jest less , seria ważonych regresji liniowych obliczonych nad ruchomym oknem. To podejście jest starsze i lepiej nadaje się do analizy danych eksploracyjnych .

Inne podejście polega na użyciu splajnów. Na to najprostszy, splajnem to nowy termin, który odnosi się tylko do części z zakresu . Na przykład X może mieścić się w zakresie od 0 do 1, a składnik splajnu może mieścić się w zakresie od 0,7 do 1. W tym przypadku .7 jest węzłem . Prosty, liniowy składnik splajnu zostałby obliczony w następujący sposób: X s p l i n e = { 0XX i zostanie dodany do twojego modelu,opróczoryginalnegoterminuX. Dopasowany model będzie wykazywał ostre zerwanie na 0,7 z linią prostą od 0 do 0,7, a linia będzie kontynuowała z innym nachyleniem od 0,7 do 1. Jednak składnik splajnu nie musi być liniowy. W szczególności ustalono, że splajny sześcienne są szczególnie przydatne (tj.X 3 s p l i n e

Xspline={0if X.7X.7if X>.7

XXspline3). Nie ma też ostrego zerwania. Opracowano algorytmy, które ograniczają dopasowane parametry tak, że pierwsza i druga pochodna pasują do węzłów, co uniemożliwia wykrycie węzłów na wyjściu. Efektem końcowym tego wszystkiego jest to, że zaledwie kilka węzłów (zwykle 3-5) w wybranych lokalizacjach (które oprogramowanie może dla ciebie określić) może odtworzyć praktycznie każdąkrzywa. Co więcej, stopnie swobody są obliczane poprawnie, więc możesz zaufać wynikom, co nie jest prawdą, gdy najpierw spojrzysz na swoje dane, a następnie zdecydujesz się dopasować kwadrat do kwadratu, ponieważ widziałeś zagięcie. Ponadto wszystko to jest kolejną (choć bardziej skomplikowaną) wersją podstawowego modelu liniowego. Zatem wszystko, co otrzymujemy z modelami liniowymi, ma to (np. Prognozy, wartości resztkowe, przedziały ufności, testy itp.). Są to znaczące zalety.

Najprostsze wprowadzenie do tych tematów, które znam, to:

gung - Przywróć Monikę
źródło
6

Internetowe notatki Cosmy Shalizi na temat jego wykładu Zaawansowana analiza danych z podstawowego punktu widzenia są dość dobre na ten temat, patrząc na rzeczy z perspektywy, w której interpolacja i regresja są dwoma podejściami do tego samego problemu. Chciałbym szczególnie zwrócić uwagę na rozdziały dotyczące metod wygładzania i splajnów .

Martin O'Leary
źródło
Twoje linki mogą korzystać z aktualizacji. Próbowałem, ale powinieneś sprawdzić, czy moje proponowane zmiany trafiły na zamierzone strony.
Gregor