Co jest złego w ekstrapolacji?

68

Pamiętam, jak siedziałem na kursach statystycznych jako studium słuchaczy o tym, dlaczego ekstrapolacja była złym pomysłem. Ponadto istnieje wiele źródeł online, które komentują to. Jest też wzmianka o niej tutaj .

Czy ktoś może mi pomóc zrozumieć, dlaczego ekstrapolacja jest złym pomysłem? Jeśli tak, to dlaczego techniki prognozowania nie są statystycznie nieważne?

KOLEŚ
źródło
3
@Firebug Mark Twain miał coś do powiedzenia na ten temat. Odpowiedni fragment cytowany jest pod koniec mojej odpowiedzi na stronie stats.stackexchange.com/a/24649/919 .
whuber
1
@ whuber Myślę, że teraz nie jest to dokładnie ekstrapolacja. Powiedzmy, że odpowiednio szkolimy i weryfikujemy algorytm do przewidywania danych na tydzień w obiekcie. Prawidłowe ponowne próbkowanie (i dostrajanie, jeśli są dostrajane hiperparametry), to nie widzę, co jest nie tak, jeśli tak, masz odpowiedź i powinieneś także poznać jej pewność. Teraz, jeśli trenujesz swój algorytm tygodniowo, nie możesz oczekiwać dokładnego przewidzenia za rok. Przepraszamy za możliwe zamieszanie.
Firebug,
7
@Firebug Nie trzeba przepraszać - uwagi zawierają przydatne informacje wyjaśniające. Gdy je czytam, sugerują, że „ekstrapolacja” może mieć wiele interpretacji w ustawieniach prognozowania. Jednym z nich jest „ekstrapolacja” czasu. Ale kiedy spojrzysz na standardowe modele szeregów czasowych, szczególnie te, w których czas nie jest jednoznaczną zmienną towarzyszącą, przewidują przyszłe wartości w odniesieniu do poprzednich wartości . Kiedy te poprzednie wartości pozostają w zakresie wcześniejszych poprzednich wartości, model w ogóle nie dokonuje ekstrapolacji! W tym może leżeć rozwiązanie pozornego paradoksu.
whuber
7
xkcd.com/605
immibis
2
Jestem rozczarowany, jak długo trwało pojawienie się obowiązkowego xkcd
Duncan X Simpson

Odpowiedzi:

89

Model regresji jest często używany do ekstrapolacji, tj. Przewidywania odpowiedzi na dane wejściowe, które leżą poza zakresem wartości zmiennej predykcyjnej użytej do dopasowania modelu. Niebezpieczeństwo związane z ekstrapolacją pokazano na poniższym rysunku. wykres pokazujący ekstrapolowaną linię kontynuującą w górę, gdzie maleje „prawdziwa” wartość

Model regresji jest „z założenia” modelem interpolacji i nie powinien być wykorzystywany do ekstrapolacji, chyba że jest to odpowiednio uzasadnione.

Kostia
źródło
1
To okropny przykład przeciwko ekstrapolacji. Prosta linia regresji dopasowuje punkty danych znacznie lepiej niż twoja zakrzywiona prawdziwa funkcja.
horaceT
9
„Prosta linia regresji dopasowuje punkty danych znacznie lepiej niż twoja zakrzywiona prawdziwa funkcja” To stwierdzenie jest fałszywe. RSS dla funkcji prawdziwej regresji jest mniejszy niż RSS dla prostej linii regresji,
Kostia
Punkt wzięty i możesz (powinien) mieć rację. Ale sądząc po partii punktów, nie można w żaden sposób wywnioskować prawdziwej funkcji.
horaceT
27
Dokładnie. I dlatego ekstrapolacja może być złym pomysłem.
Kostia
„Model regresji jest„ z założenia ”modelem interpolacji” -> Chyba możemy mieć dokładnie ten sam problem z interpolacją (nawet jeśli jest to mniej prawdopodobne)
Metariat
88

Ten komiks xkcd wyjaśnia wszystko.

komiks xkcd

Korzystając z punktów danych, które ma Cueball (mężczyzna z kijem), ekstrapolował, że kobieta będzie miała „czterech tuzinów” mężów do końca przyszłego miesiąca, i wykorzystał tę ekstrapolację, aby doprowadzić do wniosku, że hurtowo kupi tort weselny.

Edycja 3: Dla tych z was, którzy mówią „nie ma wystarczającej liczby punktów danych”, oto kolejny komiks xkcd :

komiks xkcd

W tym przypadku użycie słowa „zrównoważony” w czasie pokazano na wykresie półlogowym i ekstrapolując punkty danych otrzymujemy nieuzasadnione oszacowania, jak często słowo „zrównoważony” będzie występować w przyszłości.

Edycja 2: Dla tych z was, którzy mówią „potrzebujesz również wszystkich przeszłych punktów danych”, jeszcze jeden komiks xkcd: komiks xkcd

Tutaj mamy wszystkie przeszłe punkty danych, ale nie potrafimy dokładnie przewidzieć rozdzielczości Google Earth. Zauważ, że jest to również wykres półlogowy.

Edycja: Czasami nawet najsilniejsze z (r = .9979 w tym przypadku) korelacji są po prostu błędne.


Jeśli dokonujesz ekstrapolacji bez innych dowodów potwierdzających, to również naruszanie korelacji nie oznacza związku przyczynowego ; kolejny wielki grzech w świecie statystyki.

Jeśli nie ekstrapolować X z Y, jednak należy upewnić się, że można dokładnie (tyle, aby zaspokoić swoje wymagania) przewidują X z tylko Y. Prawie zawsze, istnieje wiele czynników, niż oddziaływania X.

Chciałbym udostępnić link do innej odpowiedzi, która wyjaśnia to słowami Nassima Nicholasa Taleba.

noɥʇʎԀʎzɐɹƆ
źródło
14
xkcd ma żart na temat każdego możliwego problemu matematyki / statystyki, jaki można napotkać, prawda?
Ander Biguri,
24
Pomysł ten można równie dobrze wykorzystać jako argument przeciwko interpolacji: „ostatniej nocy miałeś 0,5 męża”.
JiK
3
@JiK Jeśli wszystko, co wiesz, to to, że ona ma teraz, a dwa dni temu jej nie miała, to nie jest zły szacunek ;-)
Dennis Jaheruddin
9
Zrównoważony zrównoważony Zrównoważony zrównoważony zrównoważony zrównoważony Zrównoważony zrównoważony. en.wikipedia.org/wiki/…
Meni Rosenfeld
1
więcej xkcd, ludzie!
noɥʇʎԀʎzɐɹƆ
24

„Prognozy są bardzo trudne, szczególnie jeśli dotyczą przyszłości”. Cytat jest przypisywany wielu osobom w jakiejś formie . W poniższej „ekstrapolacji” ograniczam się do „przewidywania poza znanym zakresem”, aw ustawieniu jednowymiarowym ekstrapolacji ze znanej przeszłości do nieznanej przyszłości.

Więc co jest złego w ekstrapolacji. Po pierwsze, modelowanie przeszłości nie jest łatwe . Po drugie, trudno jest ustalić, czy model z przeszłości może być wykorzystany w przyszłości . Za tymi dwoma twierdzeniami kryją się głębokie pytania dotyczące przyczynowości lub ergodyczności, wystarczalności zmiennych objaśniających itp., Które są całkowicie zależne od wielkości liter. Nieprawidłowe jest to, że trudno jest wybrać jeden schemat ekstrapolacji, który działa dobrze w różnych kontekstach, bez wielu dodatkowych informacji.

x

Kwartet Anscombe

Prognozy można jednak w pewnym stopniu skorygować. Dodając do innych odpowiedzi, kilka składników może pomóc w praktycznej ekstrapolacji:

  1. npfp(n)pn
  2. Możesz użyć kilku modeli ekstrapolacji i połączyć je lub wybrać najlepsze ( Łączenie prognoz , J. Scott Armstrong, 2001). Ostatnio wykonano szereg prac nad ich optymalną kombinacją (w razie potrzeby mogę podać referencje).

Ostatnio brałem udział w projekcie ekstrapolacji wartości do komunikacji podsystemów symulacyjnych w środowisku czasu rzeczywistego. Dogmatem w tej dziedzinie było to, że ekstrapolacja może powodować niestabilność. W rzeczywistości zdaliśmy sobie sprawę, że połączenie dwóch powyższych składników było bardzo wydajne, bez zauważalnej niestabilności (bez formalnego dowodu i obecnie w trakcie przeglądu ). A ekstrapolacja działała z prostymi wielomianami, z bardzo niskim obciążeniem obliczeniowym, przy czym większość operacji jest obliczana wcześniej i przechowywana w tablicach przeglądowych.

Wreszcie, ponieważ ekstrapolacja sugeruje zabawne rysowanie, efekt regresji liniowej jest następujący:

Zabawa z miłością i regresją liniową

Laurent Duval
źródło
+1 Ładna odpowiedź. Według tej strony wydaje się mało prawdopodobne, aby Bohr to powiedział. Bardziej prawdopodobne wydaje się to rzadkie, ale ogólne przysłowie duńskie.
usεr11852
@ usεr11852 Mało prawdopodobne, że „kiedykolwiek to powiedział”? Dlatego powiedziałem „przypisane”, czy powinienem być bardziej ostrożny?
Laurent Duval,
2
Nigdy nie powiedziałem, że zawsze . Skomentowałem to, ponieważ biorąc pod uwagę, że powiedzenie wydaje się o wiele bardziej prawdopodobne, że jest duńskim przysłowiem, przypisywanie go konkretnemu (niezwykle symbolicznemu) Duńczykowi wydaje się nieco przesadzone - szczególnie biorąc pod uwagę, że nie ma żadnych wzmianek o Bohr. Pierwotnym autorem może być nienazwany rybak komentujący jutrzejszy połów! Rootuję się tutaj dla małego faceta! : D
usεr11852
2
Bardzo trudno jest modelować również legendy z cytatami.
Laurent Duval,
3
Z pewnością pytanie używa obu słów: chodzi o to, czy „prognozowanie” należy uznać za formę „ekstrapolacji”. Zgodnie z wprowadzającymi komentarzami wydaje się, że ekstrapolacja jest definiowana jako używanie przeszłości do „modelowania przyszłości”. Dopóki nie podasz jasnych i wyraźnych definicji każdego z nich, Twoja odpowiedź może być źle zrozumiana.
whuber
17

Chociaż dopasowanie modelu może być „ dobre ”, ekstrapolację poza zakres danych należy traktować sceptycznie. Powodem jest to, że w wielu przypadkach ekstrapolacja (niestety i nieuchronnie) opiera się na niesprawdzalnych założeniach dotyczących zachowania danych poza ich obserwowanym poparciem.

xout

Dodatkowym zastrzeżeniem jest to, że wiele nieparametrycznych technik szacowania nie pozwala na ekstrapolację natywnie. Problem ten jest szczególnie zauważalny w przypadku wygładzania splajnu, gdy nie ma już węzłów do zakotwiczenia dopasowanego splajnu.

Chciałbym podkreślić, że ekstrapolacja jest daleka od zła. Na przykład metody numeryczne szeroko stosowane w statystyce (na przykład proces kwadratu delta Aitkena i ekstrapolacja Richardsona ) są zasadniczo schematami ekstrapolacji opartymi na założeniu, że podstawowe zachowanie funkcji analizowanej dla obserwowanych danych pozostaje stabilne w poparciu funkcji.

usεr11852
źródło
εΔ2)
15

W przeciwieństwie do innych odpowiedzi powiedziałbym, że nie ma nic złego w ekstrapolacji, o ile nie jest ona wykorzystywana w sposób bezmyślny. Po pierwsze, zauważ, że ekstrapolacja to :

proces szacowania, poza pierwotnym zakresem obserwacji, wartości zmiennej na podstawie jej związku z inną zmienną.

... więc jest to bardzo szeroki termin i wiele różnych metod, od prostej ekstrapolacji liniowej , po regresję liniową, regresję wielomianową, a nawet niektóre zaawansowane metody prognozowania szeregów czasowych pasują do takiej definicji. W rzeczywistości ekstrapolacja, prognozy i prognozy są ściśle powiązane. W statystykach często wykonujemy prognozy i prognozy . Tak też mówi link, do którego się odwołujesz:

Już od pierwszego dnia statystyki uczy się, że ekstrapolacja jest wielkim nie-nie, ale właśnie takie jest prognozowanie.

Do prognozowania stosuje się wiele metod ekstrapolacji , ponadto często proste metody działają całkiem dobrze z małymi próbkami, więc mogą być preferowane zamiast skomplikowanych. Problemem jest, jak zauważono w innych odpowiedziach, niewłaściwe użycie metody ekstrapolacji.

Na przykład wiele badań pokazuje, że wiek inicjacji seksualnej zmniejsza się z czasem w krajach zachodnich. Spójrz na wykres poniżej o wieku pierwszego stosunku w USA. Gdybyśmy ślepo zastosowali regresję liniową do przewidzenia wieku pierwszego stosunku, przewidzieliśmy, że spadnie ona poniżej zera za pewną liczbę lat (zgodnie z pierwszym małżeństwem i pierwszymi porodami, które miały miejsce w pewnym momencie po śmierci) ... Jeśli jednak trzeba było dokonać prognozę na następny rok, sądzę, że regresja liniowa doprowadziłaby do dość dokładnych prognoz krótkoterminowych trendu.

wprowadź opis zdjęcia tutaj

(źródło guttmacher.org )

Wszystkie modele są błędne , ekstrapolacja jest również błędna, ponieważ nie pozwoliłoby to na precyzyjne przewidywanie. Podobnie jak inne narzędzia matematyczne / statystyczne pozwolą ci dokonać przybliżonych prognoz. Zakres ich dokładności zależy od jakości posiadanych danych, przy użyciu metod adekwatnych do problemu, założeń przyjętych podczas definiowania modelu i wielu innych czynników. Ale to nie znaczy, że nie możemy korzystać z takich metod. Możemy, ale musimy pamiętać o ich ograniczeniach i powinniśmy ocenić ich jakość dla danego problemu.

Tim
źródło
4
Kiedy dane, których używasz do regresji, kończą się na początku lat 80. XX wieku, prawdopodobnie prawdopodobnie łatwo przetestujesz, jak długo po tej dacie ekstrapolacja będzie działać.
gerrit
@gerrit Zgadzam się, ale niestety nie udało mi się znaleźć odpowiednich danych. Ale jeśli ktoś mógłby mi to wskazać, chętnie zaktualizuję moją odpowiedź na takie porównanie.
Tim
W tym przypadku ekstrapolacja nie udaje się, biorąc pod uwagę fakt, że wiek pierwszej płci wzrósł w ciągu ostatnich kilku lat. (Ale dane na ten temat zawsze opóźniają rok urodzenia o kilka dekad, z powodów, które powinny być oczywiste.)
David Manheim,
13

Bardzo podoba mi się przykład Nassima Taleba (który był adaptacją wcześniejszego przykładu Bertranda Russella):

Zastanów się nad indykiem karmionym codziennie. Każde karmienie utwierdza ptaka w przekonaniu, że ogólną zasadą życia jest codzienne karmienie przez przyjaznych członków rodzaju ludzkiego „dbających o swoje najlepsze interesy”, jak powiedziałby polityk. Po południu w środę przed Świętem Dziękczynienia indykowi wydarzy się coś nieoczekiwanego. Spowoduje to rewizję przekonań.

Niektóre matematyczne analogi są następujące:

  • znajomość pierwszych kilku współczynników Taylora funkcji nie zawsze gwarantuje, że kolejne współczynniki będą zgodne z twoim zakładanym wzorcem.

  • znajomość warunków początkowych równania różniczkowego nie zawsze gwarantuje znajomość jego asymptotycznego zachowania (np. równania Lorenza, czasem zniekształcone w tak zwany „efekt motyla”)

Oto miły wątek MO na ten temat.

J. M. nie jest statystykiem
źródło
3
… I oczywiście Taleb musi wskazać lekcję moralną: „nie bądź indykiem”! W tym kontekście: nie bądź nieostrożnym ekstrapolatorem i nie ulegaj grzechowi pychy.
JM nie jest statystykiem
@ uoɥʇʎPʎzɐɹC, nie prosiłem o to, ale dziękuję!
JM nie jest statystykiem
tak naprawdę nie mają zastosowania do reputacji potwierdzonej krzyżowo - i nikt nie widział twojej odpowiedzi i było naprawdę dobre. Cieszyć się!
noɥʇʎԀʎzɐɹƆ
12

Jeśli chcesz, zastanów się nad następującą historią.

Pamiętam też, jak siedziałem na kursie statystyki, a profesor powiedział nam, że ekstrapolacja to zły pomysł. Potem podczas następnych zajęć powiedział nam, że to zły pomysł; w rzeczywistości powiedział to dwa razy.

Przez resztę semestru byłam chora, ale byłam pewna, że ​​nie mogłam przegapić dużej ilości materiału, ponieważ do ostatniego tygodnia facet z pewnością musiał robić tylko tyle, co powtarzać ludziom, że ekstrapolacja była złym pomysłem .

O dziwo, nie zdałem bardzo wysoko na egzaminie.

einpoklum
źródło
6
Pytanie brzmi „co jest złego w ekstrapolacji?”. Szukamy odpowiedzi, które uzasadniają, dlaczego ekstrapolacja może być złym pomysłem.
Robert Long,
8
@RobertLong: W rzeczywistości jest to rodzaj odpowiedzi na meta / żart i dość podobny do xkcd.com/605 - może jednak lepiej jako komentarz niż odpowiedź.
Neil Slater,
@NeilSlater: Powinieneś zamieścić swój komentarz jako odpowiedź ... :)
usεr11852
@RobertLong: To jest taka odpowiedź. Po prostu ma formę przypowieści.
einpoklum,
2
Nie jest jasne, czy Twój model ma charakter wykładniczy.
gerrit
6

Pytanie jest nie tylko statystyczne, ale także epistemologiczne. Ekstrapolacja jest jednym ze sposobów, w jaki dowiadujemy się o naturze, jest to forma indukcji . Powiedzmy, że mamy dane dotyczące przewodności elektrycznej materiału w zakresie temperatur od 0 do 20 stopni Celsjusza, co możemy powiedzieć o przewodności w 40 stopniach Celsjusza?

Jest to ściśle związane z wnioskowaniem z małej próby: co możemy powiedzieć o całej populacji na podstawie pomiarów przeprowadzonych na małej próbce? Zostało to rozpoczęte przez Gosset jako Guiness , który wymyślił rozkłady t Studentów. Przed nim statystycy nie zadali sobie trudu, aby pomyśleć o małych próbkach, zakładając, że wielkość próbki zawsze może być duża. Był w Guinnes i musiał poradzić sobie z próbkami piwa, aby zdecydować, co zrobić z całą partią piwa do wysłania.

Tak więc w praktyce (biznes), inżynierii i nauce zawsze musimy dokonywać pewnych ekstrapolacji. Może to być ekstrapolacja małych próbek na duże lub od ograniczonego zakresu warunków wejściowych do szerszego zestawu warunków, od tego, co dzieje się w akceleratorze, do tego, co się stało z czarną dziurą miliardów kilometrów itp. Jest to jednak szczególnie ważne w nauce , jak naprawdę uczymy się, badając rozbieżności między naszymi szacunkami ekstrapolacji a rzeczywistymi pomiarami. Często odkrywamy nowe zjawiska, gdy rozbieżności są duże lub spójne.

dlatego mówię, że nie ma problemu z ekstrapolacją. To coś, co musimy robić każdego dnia. To po prostu trudne.

Aksakal
źródło
4

Ekstrapolacja sama w sobie niekoniecznie jest zła, ale jest procesem, który prowadzi do wniosków, które są bardziej nierozsądne niż dochodzenie do interpolacji.

  • Często dokonuje się ekstrapolacji w celu zbadania wartości dość daleko od regionu, z którego pobierano próbki. Jeśli próbuję 100 wartości z przedziału od 0 do 10, a następnie dokonam ekstrapolacji tylko trochę, tylko do wartości 11, mój nowy punkt jest prawdopodobnie 10 razy dalej od dowolnego punktu danych niż jakakolwiek interpolacja. Oznacza to, że jest o wiele więcej miejsca, aby zmienna wymknęła się spod kontroli (jakościowo). Zauważ, że celowo wybrałem tylko niewielką ekstrapolację. Może być znacznie gorzej
  • Ekstrapolacja musi być wykonana z dopasowaniami krzywej, które miały na celu ekstrapolację. Na przykład wiele dopasowań wielomianowych jest bardzo słabych do ekstrapolacji, ponieważ warunki, które zachowują się dobrze w próbkowanym zakresie, mogą wybuchnąć po jego opuszczeniu. Dobra ekstrapolacja zależy od „dobrego odgadnięcia”, co dzieje się poza badanym regionem. Co prowadzi mnie do ...
  • Często bardzo trudno jest zastosować ekstrapolację ze względu na obecność przejść fazowych. Wiele procesów, na których można chcieć ekstrapolować, ma zdecydowanie nieliniowe właściwości, które nie są dostatecznie eksponowane w badanym obszarze. Doskonałym przykładem jest aeronautyka wokół prędkości dźwięku. Wiele ekstrapolacji z niższych prędkości rozpada się, gdy osiągasz i przewyższasz prędkość przesyłania informacji w powietrzu. Zdarza się to również dość często w przypadku nauk miękkich, gdzie sama polityka może mieć wpływ na jej sukces. Ekonomia keynesowska ekstrapolowała, jak zachowa się gospodarka przy różnych poziomach inflacji i przewidziała najlepszy możliwy wynik. Niestety wystąpiły efekty drugiego rzędu, a rezultatem nie był dobrobyt gospodarczy, a raczej jedne z najwyższych wskaźników inflacji, jakie widział USA.
  • Ludzie lubią ekstrapolacje. Ogólnie rzecz biorąc, ludzie naprawdę chcą, aby ktoś spojrzał w kryształową kulę i powiedział im przyszłość. Zaakceptują zaskakująco złe ekstrapolacje tylko dlatego, że są to wszystkie posiadane informacje. Nie może to samo w sobie stanowić złej ekstrapolacji, ale zdecydowanie jest to coś, co należy wziąć pod uwagę podczas jej używania.

Aby uzyskać najlepszą ekstrapolację, rozważ projekt Manhattan. Fizycy byli tam zmuszeni do pracy z ekstremalnie małymi testami na małą skalę przed zbudowaniem prawdziwej rzeczy. Po prostu nie mieli wystarczającej ilości uranu, aby zmarnować na testy. Robili, co mogli, i byli sprytni. Jednak kiedy nastąpił ostatni test, postanowiono, że każdy naukowiec zdecyduje, jak daleko od wybuchu chcą być, gdy wybuchnie. Istniały znaczne różnice zdań co do tego, jak daleko jest „bezpiecznie”, ponieważ wszyscy naukowcy wiedzieli, że ekstrapolują dość daleko od swoich testów. Istniała nawet nietrywialna kwestia, że ​​mogliby podpalić atmosferę bombą nuklearną, problem ten został również rozwiązany przy znacznej ekstrapolacji!

Cort Ammon
źródło
3

Tutaj jest wiele dobrych odpowiedzi, chcę po prostu zsyntetyzować to, co uważam za sedno problemu: ekstrapolacja poza proces generowania danych, który doprowadził do próby oszacowania, jest niebezpieczna. Czasami nazywa się to „zmianą strukturalną”.

Prognozowanie jest oparte na założeniach, z których głównym jest to, że proces generowania danych jest (tak blisko, jak nie ma istotnej różnicy) taki sam jak ten, który wygenerował próbkę (z wyjątkiem zmiennych rhs, których zmiany wyraźnie uwzględniono w modelu) . Jeśli nastąpi zmiana strukturalna (np. Święto Dziękczynienia w przykładzie Taleba), wszystkie zakłady są wyłączone.

Jason
źródło