Jak interpolacja jest związana z pojęciem regresji?

17

Wyjaśnij krótko Co należy rozumieć przez interpolację. Jak wiąże się to z pojęciem regresji?

interpolacja to sztuka czytania między wierszami tabeli, a w matematyce elementarnej termin ten zwykle oznacza proces obliczania wartości pośrednich funkcji z zestawu danych lub tabelarycznych wartości tej funkcji.

Nie mogę udzielić odpowiedzi na drugie pytanie. Proszę pomóż

Argha
źródło
4
Regresja ma na celu identyfikację funkcji opisującej oczekiwaną wartość Y (zmienna zależna) dla danej X (zmienne niezależne). Interpolacja wykorzystuje regresji dla przewidywania wartości Y w zadanych wartości X . Różnica jest subtelna, ale wysuwa się na pierwszy plan w modelach, w których Y są skorelowane, ponieważ wówczas przewidywane wartości zwykle różnią się od ich wartości regresji. Ani regresja, ani przewidywanie nie mają bezpośredniego zastosowania do interpolacji w tabelach matematycznych, które zwykle nie mają błędu losowego, ale ich algorytmy można nadal stosować.
Whuber
2
Czy to działa dla niektórych klas?
Glen_b

Odpowiedzi:

23

Główną różnicą między interpolacją a regresją jest definicja problemu, który rozwiązują.

Biorąc pod uwagę punktów danych, interpolując, szukasz funkcji, która ma jakąś predefiniowaną formę, która ma wartości w tych punktach dokładnie tak, jak określono. Oznacza to, że w danych parach ( x i , y i ) szukasz F w jakiejś predefiniowanej formie, która spełnia F ( x i ) = y i . Myślę, że najczęściej F.n(xi,yi)FF(xi)=yiF jest wybierane jako wielomianowe, wielowypustowe (wielomiany niskiego stopnia w odstępach między podanymi punktami).

Wykonując regresję, szukasz funkcji, która minimalizuje niektóre koszty, zwykle sumę kwadratów błędów. Nie potrzebujesz, aby funkcja miała dokładne wartości w danych punktach, po prostu chcesz mieć dobre przybliżenie. Ogólnie rzecz biorąc, znaleziona funkcja może nie spełniać F ( x i ) = y i dla dowolnego punktu danych, ale funkcja kosztu, tj. n i = 1 ( F ( x i ) - y i ) 2, będzie najmniejsza z możliwych wszystkich funkcji danej formy.FF(xi)=yii=1n(F(xi)yi)2

Dobrym przykładem tego, dlaczego warto jedynie przybliżać zamiast interpolować, są ceny na giełdzie. Możesz wziąć ceny w niektórych ostatnich jednostkach czasu i spróbować interpolować je, aby uzyskać prognozę ceny w następnej jednostce czasu. Jest to raczej zły pomysł, ponieważ nie ma powodu, aby sądzić, że relacje między cenami można dokładnie wyrazić wielomianem. Ale regresja liniowa może załatwić sprawę, ponieważ ceny mogą mieć pewne „nachylenie”, a funkcja liniowa może być dobrym przybliżeniem, przynajmniej lokalnie (wskazówka: nie jest to takie łatwe, ale regresja jest zdecydowanie lepszym pomysłem niż interpolacja w tym przypadku ).k

sjm.majewski
źródło
Niezła odpowiedź. Dodałbym, że w przypadku regresji stoi za nią model statystyczny, który określa zależność między i X pod względem pewnego rozkładu, w którym oceniamy, że jest to średnia (lub mediana, kwantyle itp. W różnych smakach regresji), np. Statystyki .stackexchange.com / pytania / 173660 /…YX
Tim
Czy opisany przez ciebie przykład nie byłby ekstrapolacją, a nie interpolacją?
bi_scholar
6

Dwie poprzednie odpowiedzi wyjaśniły związek między interpolacją liniową a regresją liniową (lub nawet interpolacją ogólną i regresją wielomianową). Ale ważnym połączeniem jest to, że po dopasowaniu modelu regresji można go użyć do interpolacji między danymi punktami danych.

Michael R. Chernick
źródło
Kiedy więc cofam się, powiedzmy, wzrost w stosunku do płci, mogę interpolować, aby znaleźć oczekiwaną wysokość w połowie mężczyzny, w połowie kobiety! Ten fantazyjny przykład uwypukla podstawową wadę tej odpowiedzi, jaką jest założenie, że wszystkie regresory w modelu regresji muszą być zmiennymi ciągłymi.
whuber
2
Moja odpowiedź ma zastosowanie, gdy wszystkie zmienne predykcyjne są ciągłe.
Michael R. Chernick
4

Mam nadzieję, że przyjdzie to dość szybko z prostym przykładem i wizualizacją.

Załóżmy, że masz następujące dane:

X  Y
1  6
10 15
20 25
30 35
40 45
50 55

Możemy użyć regresji do modelowania Y jako odpowiedzi na X. Używając R: lm(y ~ x)

Wyniki to przecięcie 5, a współczynnik dla x równy 1. Oznacza to, że dowolne Y można obliczyć dla danego X jako X + 5. Na zdjęciu można to zobaczyć w ten sposób:

wprowadź opis zdjęcia tutaj

Zauważ, że jeśli poszedłeś do osi X, gdziekolwiek wzdłuż niej i narysowałeś linię do dopasowanej linii, a następnie narysowałeś linię do osi Y, możesz uzyskać wartość, niezależnie od tego, czy podałem punkt wartości dla Y. Regresja wygładza się na obszarach bez danych poprzez oszacowanie podstawowej zależności.

Fomite
źródło
2

podstawowa różnica b / w Interpolacja i regresja jest następująca: Interpolacja: załóżmy, że jest n punktów (np .: 10 punktów danych), w interpolacji dopasujemy krzywą przechodzącą przez wszystkie punkty danych (tj. tutaj 10 punktów danych) za pomocą stopień wielomianu (liczba punktów danych -1; tzn. tutaj jest to 9). gdzie, jak w regresji, nie wszystkie dane wskazują tylko ich zestaw potrzebny do dopasowania krzywej.

generalnie kolejność interpolacji i regresji będzie wynosić (1,2 lub 3), jeśli kolejność jest większa niż 3, więcej krzywych będzie widocznych na krzywej.

użytkownik30339
źródło
2
Oznacza to, że interpolacja opiera się na wielomianach, ale istnieje kilka innych metod, takich jak splajn sześcienny, kawałek pustelnika sześciennego, najbliższy sąsiad itp.
Nick Cox
@Nick Chociaż masz rację, to ciekawe, że każda metoda, którą nazywasz, jest oparta na wielomianach! Być może najprostszym, najlepiej znanym interpolatorem niepolomimicznym jest ważenie odwrotne (IDW).
whuber
@whuber Zgoda; jeśli wielomiany mogą być stosowane z ograniczeniami, wówczas większość metod się kwalifikuje, np. najbliższy sąsiad = stała fragmentaryczna itp.
Nick Cox
2

Regresja to proces znajdowania linii najlepszego dopasowania [1]. Interpolacja to proces polegający na użyciu linii najlepszego dopasowania do oszacowania wartości jednej zmiennej na podstawie wartości innej, pod warunkiem, że używana wartość mieści się w zakresie danych. Jeśli jest poza zakresem, użyłbyś ekstrapolacji [1].

[1] http://mathhelpforum.com/advanced-applied-math/182558-interpolation-vs-regression.html

Razan Paul
źródło
2
Ta odpowiedź nie odróżnia interpolacji od ekstrapolacji. Czy utrzymujesz, że są tym samym? BTW, fora matematyczne (a nawet podręczniki i publikacje) na ogół nie są dobrym źródłem informacji na temat zagadnień statystycznych, ponieważ mają tendencję do skupiania się na wąskich znaczeniach matematycznych, które - choć poprawne i przydatne w zastosowaniach czysto matematycznych - mogą nie mieć szerszego zastosowania .
whuber
1

Dzięki interpolacji lub dopasowaniu splajnu otrzymujemy dane liczbowe (interpolowany zakład ween każdej pary oryginalnych danych) o większym rozmiarze, które po wykreśleniu generują efekt gładkiej krzywej. W rzeczywistości między każdą parą oryginalnych danych dopasowywany jest inny wielomian, dlatego cała krzywa po interpolacji jest ciągłą krzywą po kawałku, przy czym każdy kawałek jest utworzony z innego wielomianu.

Jeśli ktoś szuka parametrycznej reprezentacji oryginalnych danych liczbowych, należy wykonać regresję. Możesz także spróbować dopasować wielomian wysokiego stopnia do splajnu. W każdym razie reprezentacja będzie miała charakter przybliżony. Możesz także sprawdzić, jak dokładne jest przybliżenie.

Karnika
źródło
Wygląda na to, że nie miałeś jeszcze okazji przeczytać komentarza Nicka Coxa , który wskazuje, że nie wszystkie interpolatory są wielomianami (lokalnymi).
whuber
0

Zarówno regresja, jak i interpolacja służą do przewidywania wartości zmiennej (Y) dla danej wartości innej zmiennej (X). W regresji możemy przewidzieć dowolną wartość zmiennej zależnej (Y) dla danej wartości zmiennej niezależnej (X) Nawet jeśli jest ona poza zakresem wartości tabelarycznych, ale w przypadku interpolacji możemy przewidzieć tylko wartości zmiennej zależnej (Y) dla wartości zmiennej niezależnej (X), która mieści się w zakresie podanych wartości X.

kounteyo roy chowdhury
źródło
0

Interpolacja to proces dopasowywania pewnej liczby punktów między x = ai x = b dokładnie do interpolującego wielomianu. Interpolacji można użyć do znalezienia przybliżonej wartości (lub brakującej wartości) y w dziedzinie x = [a, b] z większą dokładnością niż technika regresji.

Z drugiej strony regresja jest procesem dopasowywania pewnej liczby punktów do krzywej przechodzącej przez punkty lub w ich pobliżu z minimalnym błędem do kwadratu. Regresja nie przybliży wartości y w dziedzinie x = [a, b] tak dokładnej jak interpolacja, jednak regresja zapewnia lepsze przewidywania niż interpolacja dla wartości y w dziedzinie między x = (- nieskończoność, a) i x = ( b, + nieskończoność).

Podsumowując, interpolacja zapewnia lepszą dokładność wartości y w dziedzinie o znanym zakresie x, podczas gdy regresja zapewnia lepsze przewidywania y w dziedzinie poniżej i poza znanym zakresem x.

NFM Noor
źródło
3
Wielomian nie jest definicją interpolacji. Inne płynne funkcje mogą być odpowiednie.
Nick Cox
3
Istnieją inne problemy z twoimi roszczeniami. Na przykład regresja może być dokładniejsza niż interpolacja. Rozróżnienie statystyczne między tymi dwiema procedurami różni się od tego, co reprezentujesz: zobacz inne posty w tym wątku.
whuber