Jaka jest różnica między ekstrapolacją a interpolacją i jaki jest najbardziej precyzyjny sposób używania tych terminów?
Na przykład widziałem oświadczenie w pracy z interpolacją jako:
„Procedura interpoluje kształt oszacowanej funkcji między punktami bin”
Zdanie, które używa zarówno ekstrapolacji, jak i interpolacji, to na przykład:
Poprzedni krok, w którym ekstrapolowaliśmy funkcję interpolowaną metodą Kernela na lewe i prawe ogony temperatury.
Czy ktoś może podać jasny i łatwy sposób na ich rozróżnienie i wskazać, jak prawidłowo używać tych terminów na przykładzie?
terminology
interpolation
extrapolation
Frank Swanton
źródło
źródło
Odpowiedzi:
Aby dodać do tego wizualne wyjaśnienie: rozważmy kilka punktów, które planujesz modelować.
Wyglądają, jakby można je było dobrze opisać linią prostą, więc dopasuj do nich regresję liniową:
Ta linia regresji pozwala zarówno interpolować (generować oczekiwane wartości między punktami danych), jak i ekstrapolować (generować oczekiwane wartości poza zakresem punktów danych). Podkreśliłem ekstrapolację na czerwono, a największy obszar interpolacji na niebiesko. Żeby było jasne, nawet małe regiony między punktami są interpolowane, ale tutaj podkreślam tylko duży.
Dlaczego ekstrapolacja jest na ogół większym problemem? Ponieważ zwykle nie masz pewności co do kształtu relacji poza zakresem danych. Zastanów się, co może się stać, gdy zbierzesz jeszcze kilka punktów danych (puste kółka):
Okazuje się, że związek nie został jednak dobrze uchwycony przez hipotetyczny związek. Prognozy w regionie ekstrapolowanym są dalekie. Nawet jeśli odgadłeś precyzyjną funkcję, która poprawnie opisuje tę nieliniową zależność, twoje dane nie rozciągały się na wystarczający zakres, aby dobrze uchwycić nieliniowość, więc być może byłeś dość daleko. Zauważ, że jest to problem nie tylko dla regresji liniowej, ale dla dowolnej relacji - dlatego ekstrapolacja jest uważana za niebezpieczną.
Prognozy w interpolowanym regionie są również niepoprawne z powodu braku nieliniowości w dopasowaniu, ale ich błąd przewidywania jest znacznie niższy. Nie ma gwarancji, że nie będziesz mieć nieoczekiwanego związku między swoimi punktami (tj. Regionem interpolacji), ale generalnie jest to mniej prawdopodobne.
Dodam, że ekstrapolacja nie zawsze jest okropnym pomysłem - jeśli ekstrapolujesz trochę poza zasięgiem swoich danych, prawdopodobnie nie pomylisz się (choć jest to możliwe!). Starożytni, którzy nie mieli dobrego naukowego modelu świata, nie byliby w błędzie, gdyby przewidywali, że słońce wstanie następnego dnia i następnego dnia (choć pewnego dnia w przyszłości nawet to się nie powiedzie).
A czasami, ekstrapolacja może być nawet pouczające - na przykład, proste krótkoterminowe ekstrapolacji z wykładniczym wzrostem atmosferycznego CO były wystarczająco dokładne w ciągu ostatnich kilku dekad. Jeśli byłeś studentem, który nie miał specjalistycznej wiedzy naukowej, ale chciał szorstkiej, krótkoterminowej prognozy, dałoby to dość rozsądne wyniki. Ale im dalej od twoich danych dokonujesz ekstrapolacji, tym bardziej prawdopodobne jest, że twoje przewidywania zawiodą i zawiodą katastrofalnie, jak to bardzo ładnie opisano w tym wielkim wątku: Co jest złego w ekstrapolacji? (dzięki @JMisnotastatistician za przypomnienie mi o tym).2
Edycja na podstawie komentarzy: interpolując lub ekstrapolując, zawsze najlepiej jest mieć trochę teorii, która spełni oczekiwania. Jeśli konieczne jest modelowanie bez teorii , ryzyko interpolacji jest zwykle mniejsze niż ryzyko ekstrapolacji. To powiedziawszy, ponieważ wraz ze wzrostem odległości między punktami danych interpolacja staje się coraz bardziej obarczona ryzykiem.
źródło
Zasadniczo interpolacja jest operacją w ramach obsługi danych lub między istniejącymi znanymi punktami danych; ekstrapolacja jest poza obsługą danych . W innym przypadku kryterium jest: gdzie są brakujące wartości?
Jednym z powodów tego rozróżnienia jest to, że ekstrapolacja jest zwykle trudniejsza do zrobienia dobrze, a nawet niebezpieczna, statystycznie, jeśli nie praktycznie. Nie zawsze jest to prawdą: na przykład powodzie rzeczne mogą przytłoczyć środki pomiaru zrzutu lub nawet etapu (poziom pionowy), rozrywając dziurę w zmierzonym rekordzie. W tych okolicznościach interpolacja rozładowania lub etapu jest również trudna, a bycie w ramach obsługi danych nie pomaga bardzo.
Na dłuższą metę zmiana jakościowa zwykle zastępuje zmianę ilościową. Około 1900 r. Istniała obawa, że wzrost ruchu konnego spowoduje zalanie miast głównie niepożądanymi odchodami. Wykładniczy w ekskrementach został zastąpiony przez silnik spalinowy i jego różne wykładnicze.
źródło
Wersja TL; DR:
Mnemoniczny: w terpolacji => z boku.
FWIW: Przedrostek oznacza między , a dodatkowe oznacza poza . Pomyśl także o autostradach międzypaństwowych, które biegną między stanami lub dodatkowych ziemian spoza naszej planety.
źródło
Przykład:
Badanie: Chcesz dopasować prostą regresję liniową do wzrostu w wieku dla dziewcząt w wieku 6-15 lat. Wielkość próby wynosi 100, wiek oblicza się na podstawie (data pomiaru - data urodzenia) /365.25.
Po zebraniu danych model jest dopasowany i uzyskuje oszacowanie przecięcia b0 i nachylenia b1. oznacza to, że mamy E (wzrost | wiek) = b0 + b1 * wiek.
Kiedy chcesz średniego wzrostu dla wieku 13 lat, okazuje się, że nie ma 13-letniej dziewczynki w próbie 100 dziewcząt, jedna z nich ma 12,83 lat, a druga 13,24.
Teraz włączysz wiek = 13 do wzoru E (wzrost | wiek) = b0 + b1 * wiek. Nazywa się to interpolacją, ponieważ 13-latek jest objęty zakresem danych używanych do dopasowania modelu.
Jeśli chcesz uzyskać średni wzrost dla wieku 30 lat i zastosować tę formułę, nazywa się to ekstrapolacją, ponieważ wiek 30 jest poza zakresem wieku objętego Twoimi danymi.
Jeśli model ma kilka zmiennych towarzyszących, należy zachować ostrożność, ponieważ trudno jest narysować granicę, którą obejmują dane.
W statystykach nie opowiadamy się za ekstrapolacją.
źródło