Pamiętam, jak siedziałem na kursach statystycznych jako studium słuchaczy o tym, dlaczego ekstrapolacja była złym pomysłem. Ponadto istnieje wiele źródeł online, które komentują to. Jest też wzmianka o niej tutaj .
Czy ktoś może mi pomóc zrozumieć, dlaczego ekstrapolacja jest złym pomysłem? Jeśli tak, to dlaczego techniki prognozowania nie są statystycznie nieważne?
Odpowiedzi:
Model regresji jest często używany do ekstrapolacji, tj. Przewidywania odpowiedzi na dane wejściowe, które leżą poza zakresem wartości zmiennej predykcyjnej użytej do dopasowania modelu. Niebezpieczeństwo związane z ekstrapolacją pokazano na poniższym rysunku.
Model regresji jest „z założenia” modelem interpolacji i nie powinien być wykorzystywany do ekstrapolacji, chyba że jest to odpowiednio uzasadnione.
źródło
Ten komiks xkcd wyjaśnia wszystko.
Korzystając z punktów danych, które ma Cueball (mężczyzna z kijem), ekstrapolował, że kobieta będzie miała „czterech tuzinów” mężów do końca przyszłego miesiąca, i wykorzystał tę ekstrapolację, aby doprowadzić do wniosku, że hurtowo kupi tort weselny.
Edycja 3: Dla tych z was, którzy mówią „nie ma wystarczającej liczby punktów danych”, oto kolejny komiks xkcd :
W tym przypadku użycie słowa „zrównoważony” w czasie pokazano na wykresie półlogowym i ekstrapolując punkty danych otrzymujemy nieuzasadnione oszacowania, jak często słowo „zrównoważony” będzie występować w przyszłości.
Edycja 2: Dla tych z was, którzy mówią „potrzebujesz również wszystkich przeszłych punktów danych”, jeszcze jeden komiks xkcd:
Tutaj mamy wszystkie przeszłe punkty danych, ale nie potrafimy dokładnie przewidzieć rozdzielczości Google Earth. Zauważ, że jest to również wykres półlogowy.
Edycja: Czasami nawet najsilniejsze z (r = .9979 w tym przypadku) korelacji są po prostu błędne.
Jeśli dokonujesz ekstrapolacji bez innych dowodów potwierdzających, to również naruszanie korelacji nie oznacza związku przyczynowego ; kolejny wielki grzech w świecie statystyki.
Jeśli nie ekstrapolować X z Y, jednak należy upewnić się, że można dokładnie (tyle, aby zaspokoić swoje wymagania) przewidują X z tylko Y. Prawie zawsze, istnieje wiele czynników, niż oddziaływania X.
Chciałbym udostępnić link do innej odpowiedzi, która wyjaśnia to słowami Nassima Nicholasa Taleba.
źródło
„Prognozy są bardzo trudne, szczególnie jeśli dotyczą przyszłości”. Cytat jest przypisywany wielu osobom w jakiejś formie . W poniższej „ekstrapolacji” ograniczam się do „przewidywania poza znanym zakresem”, aw ustawieniu jednowymiarowym ekstrapolacji ze znanej przeszłości do nieznanej przyszłości.
Więc co jest złego w ekstrapolacji. Po pierwsze, modelowanie przeszłości nie jest łatwe . Po drugie, trudno jest ustalić, czy model z przeszłości może być wykorzystany w przyszłości . Za tymi dwoma twierdzeniami kryją się głębokie pytania dotyczące przyczynowości lub ergodyczności, wystarczalności zmiennych objaśniających itp., Które są całkowicie zależne od wielkości liter. Nieprawidłowe jest to, że trudno jest wybrać jeden schemat ekstrapolacji, który działa dobrze w różnych kontekstach, bez wielu dodatkowych informacji.
Prognozy można jednak w pewnym stopniu skorygować. Dodając do innych odpowiedzi, kilka składników może pomóc w praktycznej ekstrapolacji:
Ostatnio brałem udział w projekcie ekstrapolacji wartości do komunikacji podsystemów symulacyjnych w środowisku czasu rzeczywistego. Dogmatem w tej dziedzinie było to, że ekstrapolacja może powodować niestabilność. W rzeczywistości zdaliśmy sobie sprawę, że połączenie dwóch powyższych składników było bardzo wydajne, bez zauważalnej niestabilności (bez formalnego dowodu i obecnie w trakcie przeglądu ). A ekstrapolacja działała z prostymi wielomianami, z bardzo niskim obciążeniem obliczeniowym, przy czym większość operacji jest obliczana wcześniej i przechowywana w tablicach przeglądowych.
Wreszcie, ponieważ ekstrapolacja sugeruje zabawne rysowanie, efekt regresji liniowej jest następujący:
źródło
Chociaż dopasowanie modelu może być „ dobre ”, ekstrapolację poza zakres danych należy traktować sceptycznie. Powodem jest to, że w wielu przypadkach ekstrapolacja (niestety i nieuchronnie) opiera się na niesprawdzalnych założeniach dotyczących zachowania danych poza ich obserwowanym poparciem.
Dodatkowym zastrzeżeniem jest to, że wiele nieparametrycznych technik szacowania nie pozwala na ekstrapolację natywnie. Problem ten jest szczególnie zauważalny w przypadku wygładzania splajnu, gdy nie ma już węzłów do zakotwiczenia dopasowanego splajnu.
Chciałbym podkreślić, że ekstrapolacja jest daleka od zła. Na przykład metody numeryczne szeroko stosowane w statystyce (na przykład proces kwadratu delta Aitkena i ekstrapolacja Richardsona ) są zasadniczo schematami ekstrapolacji opartymi na założeniu, że podstawowe zachowanie funkcji analizowanej dla obserwowanych danych pozostaje stabilne w poparciu funkcji.
źródło
W przeciwieństwie do innych odpowiedzi powiedziałbym, że nie ma nic złego w ekstrapolacji, o ile nie jest ona wykorzystywana w sposób bezmyślny. Po pierwsze, zauważ, że ekstrapolacja to :
... więc jest to bardzo szeroki termin i wiele różnych metod, od prostej ekstrapolacji liniowej , po regresję liniową, regresję wielomianową, a nawet niektóre zaawansowane metody prognozowania szeregów czasowych pasują do takiej definicji. W rzeczywistości ekstrapolacja, prognozy i prognozy są ściśle powiązane. W statystykach często wykonujemy prognozy i prognozy . Tak też mówi link, do którego się odwołujesz:
Do prognozowania stosuje się wiele metod ekstrapolacji , ponadto często proste metody działają całkiem dobrze z małymi próbkami, więc mogą być preferowane zamiast skomplikowanych. Problemem jest, jak zauważono w innych odpowiedziach, niewłaściwe użycie metody ekstrapolacji.
Na przykład wiele badań pokazuje, że wiek inicjacji seksualnej zmniejsza się z czasem w krajach zachodnich. Spójrz na wykres poniżej o wieku pierwszego stosunku w USA. Gdybyśmy ślepo zastosowali regresję liniową do przewidzenia wieku pierwszego stosunku, przewidzieliśmy, że spadnie ona poniżej zera za pewną liczbę lat (zgodnie z pierwszym małżeństwem i pierwszymi porodami, które miały miejsce w pewnym momencie po śmierci) ... Jeśli jednak trzeba było dokonać prognozę na następny rok, sądzę, że regresja liniowa doprowadziłaby do dość dokładnych prognoz krótkoterminowych trendu.
(źródło guttmacher.org )
Wszystkie modele są błędne , ekstrapolacja jest również błędna, ponieważ nie pozwoliłoby to na precyzyjne przewidywanie. Podobnie jak inne narzędzia matematyczne / statystyczne pozwolą ci dokonać przybliżonych prognoz. Zakres ich dokładności zależy od jakości posiadanych danych, przy użyciu metod adekwatnych do problemu, założeń przyjętych podczas definiowania modelu i wielu innych czynników. Ale to nie znaczy, że nie możemy korzystać z takich metod. Możemy, ale musimy pamiętać o ich ograniczeniach i powinniśmy ocenić ich jakość dla danego problemu.
źródło
Bardzo podoba mi się przykład Nassima Taleba (który był adaptacją wcześniejszego przykładu Bertranda Russella):
Niektóre matematyczne analogi są następujące:
znajomość pierwszych kilku współczynników Taylora funkcji nie zawsze gwarantuje, że kolejne współczynniki będą zgodne z twoim zakładanym wzorcem.
znajomość warunków początkowych równania różniczkowego nie zawsze gwarantuje znajomość jego asymptotycznego zachowania (np. równania Lorenza, czasem zniekształcone w tak zwany „efekt motyla”)
Oto miły wątek MO na ten temat.
źródło
Jeśli chcesz, zastanów się nad następującą historią.
Pamiętam też, jak siedziałem na kursie statystyki, a profesor powiedział nam, że ekstrapolacja to zły pomysł. Potem podczas następnych zajęć powiedział nam, że to zły pomysł; w rzeczywistości powiedział to dwa razy.
Przez resztę semestru byłam chora, ale byłam pewna, że nie mogłam przegapić dużej ilości materiału, ponieważ do ostatniego tygodnia facet z pewnością musiał robić tylko tyle, co powtarzać ludziom, że ekstrapolacja była złym pomysłem .
O dziwo, nie zdałem bardzo wysoko na egzaminie.
źródło
Pytanie jest nie tylko statystyczne, ale także epistemologiczne. Ekstrapolacja jest jednym ze sposobów, w jaki dowiadujemy się o naturze, jest to forma indukcji . Powiedzmy, że mamy dane dotyczące przewodności elektrycznej materiału w zakresie temperatur od 0 do 20 stopni Celsjusza, co możemy powiedzieć o przewodności w 40 stopniach Celsjusza?
Jest to ściśle związane z wnioskowaniem z małej próby: co możemy powiedzieć o całej populacji na podstawie pomiarów przeprowadzonych na małej próbce? Zostało to rozpoczęte przez Gosset jako Guiness , który wymyślił rozkłady t Studentów. Przed nim statystycy nie zadali sobie trudu, aby pomyśleć o małych próbkach, zakładając, że wielkość próbki zawsze może być duża. Był w Guinnes i musiał poradzić sobie z próbkami piwa, aby zdecydować, co zrobić z całą partią piwa do wysłania.
Tak więc w praktyce (biznes), inżynierii i nauce zawsze musimy dokonywać pewnych ekstrapolacji. Może to być ekstrapolacja małych próbek na duże lub od ograniczonego zakresu warunków wejściowych do szerszego zestawu warunków, od tego, co dzieje się w akceleratorze, do tego, co się stało z czarną dziurą miliardów kilometrów itp. Jest to jednak szczególnie ważne w nauce , jak naprawdę uczymy się, badając rozbieżności między naszymi szacunkami ekstrapolacji a rzeczywistymi pomiarami. Często odkrywamy nowe zjawiska, gdy rozbieżności są duże lub spójne.
dlatego mówię, że nie ma problemu z ekstrapolacją. To coś, co musimy robić każdego dnia. To po prostu trudne.
źródło
Ekstrapolacja sama w sobie niekoniecznie jest zła, ale jest procesem, który prowadzi do wniosków, które są bardziej nierozsądne niż dochodzenie do interpolacji.
Aby uzyskać najlepszą ekstrapolację, rozważ projekt Manhattan. Fizycy byli tam zmuszeni do pracy z ekstremalnie małymi testami na małą skalę przed zbudowaniem prawdziwej rzeczy. Po prostu nie mieli wystarczającej ilości uranu, aby zmarnować na testy. Robili, co mogli, i byli sprytni. Jednak kiedy nastąpił ostatni test, postanowiono, że każdy naukowiec zdecyduje, jak daleko od wybuchu chcą być, gdy wybuchnie. Istniały znaczne różnice zdań co do tego, jak daleko jest „bezpiecznie”, ponieważ wszyscy naukowcy wiedzieli, że ekstrapolują dość daleko od swoich testów. Istniała nawet nietrywialna kwestia, że mogliby podpalić atmosferę bombą nuklearną, problem ten został również rozwiązany przy znacznej ekstrapolacji!
źródło
Tutaj jest wiele dobrych odpowiedzi, chcę po prostu zsyntetyzować to, co uważam za sedno problemu: ekstrapolacja poza proces generowania danych, który doprowadził do próby oszacowania, jest niebezpieczna. Czasami nazywa się to „zmianą strukturalną”.
Prognozowanie jest oparte na założeniach, z których głównym jest to, że proces generowania danych jest (tak blisko, jak nie ma istotnej różnicy) taki sam jak ten, który wygenerował próbkę (z wyjątkiem zmiennych rhs, których zmiany wyraźnie uwzględniono w modelu) . Jeśli nastąpi zmiana strukturalna (np. Święto Dziękczynienia w przykładzie Taleba), wszystkie zakłady są wyłączone.
źródło