Ekstrapolacja v. Interpolacja

28

Jaka jest różnica między ekstrapolacją a interpolacją i jaki jest najbardziej precyzyjny sposób używania tych terminów?

Na przykład widziałem oświadczenie w pracy z interpolacją jako:

„Procedura interpoluje kształt oszacowanej funkcji między punktami bin”

Zdanie, które używa zarówno ekstrapolacji, jak i interpolacji, to na przykład:

Poprzedni krok, w którym ekstrapolowaliśmy funkcję interpolowaną metodą Kernela na lewe i prawe ogony temperatury.

Czy ktoś może podać jasny i łatwy sposób na ich rozróżnienie i wskazać, jak prawidłowo używać tych terminów na przykładzie?

Frank Swanton
źródło
1
Powiązane pytanie.
JM nie jest statystykiem
1
Możliwy duplikat Co jest nie tak z ekstrapolacją?
usεr11852 mówi: Przywróć Monic
@ usεr11852 Myślę, że dwa pytania dotyczą podobnego gruntu, ale są różne, ponieważ to pytanie dotyczy kontrastu z interpolacją.
mkt - Przywróć Monikę
Czy to rozróżnienie między interpolacją a ekstrapolacją zostało rygorystycznie sformalizowane w ogólnie uzgodniony sposób (np. Za pomocą wypukłych kadłubów), czy też terminy te nadal podlegają ludzkiej ocenie i interpretacji?
Nick Alger,

Odpowiedzi:

51

Aby dodać do tego wizualne wyjaśnienie: rozważmy kilka punktów, które planujesz modelować.

wprowadź opis zdjęcia tutaj

Wyglądają, jakby można je było dobrze opisać linią prostą, więc dopasuj do nich regresję liniową:

wprowadź opis zdjęcia tutaj

Ta linia regresji pozwala zarówno interpolować (generować oczekiwane wartości między punktami danych), jak i ekstrapolować (generować oczekiwane wartości poza zakresem punktów danych). Podkreśliłem ekstrapolację na czerwono, a największy obszar interpolacji na niebiesko. Żeby było jasne, nawet małe regiony między punktami są interpolowane, ale tutaj podkreślam tylko duży.

wprowadź opis zdjęcia tutaj

Dlaczego ekstrapolacja jest na ogół większym problemem? Ponieważ zwykle nie masz pewności co do kształtu relacji poza zakresem danych. Zastanów się, co może się stać, gdy zbierzesz jeszcze kilka punktów danych (puste kółka):

wprowadź opis zdjęcia tutaj

Okazuje się, że związek nie został jednak dobrze uchwycony przez hipotetyczny związek. Prognozy w regionie ekstrapolowanym są dalekie. Nawet jeśli odgadłeś precyzyjną funkcję, która poprawnie opisuje tę nieliniową zależność, twoje dane nie rozciągały się na wystarczający zakres, aby dobrze uchwycić nieliniowość, więc być może byłeś dość daleko. Zauważ, że jest to problem nie tylko dla regresji liniowej, ale dla dowolnej relacji - dlatego ekstrapolacja jest uważana za niebezpieczną.

Prognozy w interpolowanym regionie są również niepoprawne z powodu braku nieliniowości w dopasowaniu, ale ich błąd przewidywania jest znacznie niższy. Nie ma gwarancji, że nie będziesz mieć nieoczekiwanego związku między swoimi punktami (tj. Regionem interpolacji), ale generalnie jest to mniej prawdopodobne.


Dodam, że ekstrapolacja nie zawsze jest okropnym pomysłem - jeśli ekstrapolujesz trochę poza zasięgiem swoich danych, prawdopodobnie nie pomylisz się (choć jest to możliwe!). Starożytni, którzy nie mieli dobrego naukowego modelu świata, nie byliby w błędzie, gdyby przewidywali, że słońce wstanie następnego dnia i następnego dnia (choć pewnego dnia w przyszłości nawet to się nie powiedzie).

A czasami, ekstrapolacja może być nawet pouczające - na przykład, proste krótkoterminowe ekstrapolacji z wykładniczym wzrostem atmosferycznego CO były wystarczająco dokładne w ciągu ostatnich kilku dekad. Jeśli byłeś studentem, który nie miał specjalistycznej wiedzy naukowej, ale chciał szorstkiej, krótkoterminowej prognozy, dałoby to dość rozsądne wyniki. Ale im dalej od twoich danych dokonujesz ekstrapolacji, tym bardziej prawdopodobne jest, że twoje przewidywania zawiodą i zawiodą katastrofalnie, jak to bardzo ładnie opisano w tym wielkim wątku: Co jest złego w ekstrapolacji? (dzięki @JMisnotastatistician za przypomnienie mi o tym).2

Edycja na podstawie komentarzy: interpolując lub ekstrapolując, zawsze najlepiej jest mieć trochę teorii, która spełni oczekiwania. Jeśli konieczne jest modelowanie bez teorii , ryzyko interpolacji jest zwykle mniejsze niż ryzyko ekstrapolacji. To powiedziawszy, ponieważ wraz ze wzrostem odległości między punktami danych interpolacja staje się coraz bardziej obarczona ryzykiem.

mkt - Przywróć Monikę
źródło
5
Podoba mi się twoja odpowiedź i uważam ją za komplementarną do mojej i pod żadnym względem nie konkurującą. Ale niewielką kwestią, ważną dla niektórych czytelników, jest to, że czerwony i zielony są trudne dla wielu osób, aby odróżnić wizualnie.
Nick Cox
1
@NickCox Dobra uwaga, dziękuję za podniesienie tego - zmieniłem teraz schemat kolorów.
mkt - Przywróć Monikę
1
@leftaroundabout Miałem na myśli to, że wzór krzywej Keelinga jest tak silny, że ekstrapolacje ignorujące ekonomię i fizykę są nadal dość dokładne w skali lat do kilku dekad. Zauważyłem „ostatnie kilka dekad” właśnie dlatego, że jest to skala czasowa, w której przeprowadziliśmy pomiary w wysokiej rozdzielczości. To jest przykład, w którym ekstrapolacja nie doprowadziłaby cię do bardzo złego i myślę, że warto to zauważyć. Sądzę, że umyślne błędne odczytanie wymagałoby twierdzenia, że ​​ta odpowiedź opowiada się za ekstrapolacją bez teorii.
mkt - Przywróć Monikę
1
Podobnie podałem „przykład indyka” Taleba w tej odpowiedzi jako ostrzeżenie dla osób, które stosują ekstrapolację.
JM nie jest statystykiem
1
Ekstrapolacja jest szczególnie problematyczna w przypadku nadmiernego dopasowania; na przykład w modelu wielomianowym znaczące przekroczenie zbioru danych spowoduje wysadzenie terminu najwyższego rzędu.
Kumulacja
21

Zasadniczo interpolacja jest operacją w ramach obsługi danych lub między istniejącymi znanymi punktami danych; ekstrapolacja jest poza obsługą danych . W innym przypadku kryterium jest: gdzie są brakujące wartości?

Jednym z powodów tego rozróżnienia jest to, że ekstrapolacja jest zwykle trudniejsza do zrobienia dobrze, a nawet niebezpieczna, statystycznie, jeśli nie praktycznie. Nie zawsze jest to prawdą: na przykład powodzie rzeczne mogą przytłoczyć środki pomiaru zrzutu lub nawet etapu (poziom pionowy), rozrywając dziurę w zmierzonym rekordzie. W tych okolicznościach interpolacja rozładowania lub etapu jest również trudna, a bycie w ramach obsługi danych nie pomaga bardzo.

Na dłuższą metę zmiana jakościowa zwykle zastępuje zmianę ilościową. Około 1900 r. Istniała obawa, że ​​wzrost ruchu konnego spowoduje zalanie miast głównie niepożądanymi odchodami. Wykładniczy w ekskrementach został zastąpiony przez silnik spalinowy i jego różne wykładnicze.

Trend jest trendem jest trendem,
ale pytanie brzmi, czy się wygnie?
Czy zmieni swój bieg
przez jakąś nieprzewidzianą siłę
I dojdzie do przedwczesnego końca?

- Alexander Cairncross

Cairncross, A. 1969. Prognozy ekonomiczne. The Economic Journal , 79: 797-812. doi: 10.2307 / 2229792 (cytat na s. 797)

Nick Cox
źródło
1
Dobra odpowiedź. Interpretacja znajduje się dokładnie w nazwie - interpolacja = wygładzenie wewnątrz, ekstrapolacja = wygładzenie poza nią.
Nuclear Wang
1
IMO to poprawna odpowiedź. „Obsługa danych” jest kluczowym elementem; nawet jeśli punkt, który chcesz przejść, znajduje się między dwoma zmierzonymi, może nadal znajdować się poza obsługą danych. Na przykład, jeśli masz dane dotyczące dobrobytu dla ludzi w starożytności rzymskiej i od czasów współczesnych, ale nie pomiędzy nimi, interpolacja do średniowiecza byłaby bardzo problematyczna. Nazwałbym to ekstrapolacją. OTOH, jeśli dane są rozproszone rzadko, ale równomiernie przez cały okres, interpolacja do konkretnego roku jest znacznie bardziej prawdopodobna.
leftaroundabout
1
@leftaroundabout Tylko dlatego, że interpolacja może odbywać się na ogromnej luce w danych, nie powoduje ekstrapolacji. Mylicie celowość procedury z samą procedurą. Czasami interpolacja jest również złym pomysłem.
mkt - Przywróć Monikę
1
@mkt: Chciałbym opowiedzieć się po lewej stronie, że jego pierwszy przykład można uznać za ekstrapolację, ponieważ interpolacja kontra ekstrapolacja nie jest tak dobrze zdefiniowana, jak moglibyśmy myśleć. Prosta transformacja zmiennych może przekształcić interpolację w ekstrapolację. W jego przykładzie użycie czegoś w rodzaju funkcji odległości zamiast surowego czasu oznacza, że ​​podczas gdy w surowym czasie interpolujemy, w odległościach ekstrapolujemy ... i używanie surowych czasów byłoby prawdopodobnie złym pomysłem.
Cliff AB
1
To jest moja odpowiedź. Nie czuję potrzeby kwalifikowania go. Szerokie rozróżnienie między interpolacją a ekstrapolacją nie wyklucza, że ​​trudno jest zdecydować, które z nich należy podjąć. Jeśli masz dużą dziurę w środku przestrzeni danych, etykietowanie może pójść w obie strony. Jak niektórzy machali, fakt, że koniec dnia i początek nocy rozmazują się ze sobą, nie czyni rozróżnienia między dniem i nocą bez sensu lub bezużytecznym.
Nick Cox
12

Wersja TL; DR:

  • Inter polation zachodzi pomiędzy istniejącymi punktami danych.
  • Dodatkowe polowanie odbywa się poza nimi.

Mnemoniczny: w terpolacji => z boku.

FWIW: Przedrostek oznacza między , a dodatkowe oznacza poza . Pomyśl także o autostradach międzypaństwowych, które biegną między stanami lub dodatkowych ziemian spoza naszej planety.

AC
źródło
1

Przykład:

Badanie: Chcesz dopasować prostą regresję liniową do wzrostu w wieku dla dziewcząt w wieku 6-15 lat. Wielkość próby wynosi 100, wiek oblicza się na podstawie (data pomiaru - data urodzenia) /365.25.

Po zebraniu danych model jest dopasowany i uzyskuje oszacowanie przecięcia b0 i nachylenia b1. oznacza to, że mamy E (wzrost | wiek) = b0 + b1 * wiek.

Kiedy chcesz średniego wzrostu dla wieku 13 lat, okazuje się, że nie ma 13-letniej dziewczynki w próbie 100 dziewcząt, jedna z nich ma 12,83 lat, a druga 13,24.

Teraz włączysz wiek = 13 do wzoru E (wzrost | wiek) = b0 + b1 * wiek. Nazywa się to interpolacją, ponieważ 13-latek jest objęty zakresem danych używanych do dopasowania modelu.

Jeśli chcesz uzyskać średni wzrost dla wieku 30 lat i zastosować tę formułę, nazywa się to ekstrapolacją, ponieważ wiek 30 jest poza zakresem wieku objętego Twoimi danymi.

Jeśli model ma kilka zmiennych towarzyszących, należy zachować ostrożność, ponieważ trudno jest narysować granicę, którą obejmują dane.

W statystykach nie opowiadamy się za ekstrapolacją.

użytkownik158565
źródło
„W statystykach nie opowiadamy się za ekstrapolacją”. Znaczna część analizy szeregów czasowych robi właśnie to ...
Nick Cox