Używanie regresji do wyświetlania poza zakresem danych, dobrze? nigdy ok? czasami ok?

Co sądzisz o używaniu regresji do wyświetlania poza zakresem danych? Jeśli jesteśmy pewni, że podąża za kształtem liniowym lub potęgowym, czy model nie byłby przydatny poza zakresem danych? Na przykład mam wolumen napędzany przez cenę. Uważamy, że powinniśmy być w stanie prognozować ceny poza zakresem danych. Twoje myśli?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

regression dataset linear-model Johnson Jason
źródło

Zależy od tego, jak dobrze twoje założenia trzymają się poza zakresem danych. Prognozowanie dla niezauważonych jest pierwszym powodem, dla którego robisz regresję.

y

$y$

x

$x$

Ben

Nawet jeśli naprawdę, naprawdę jesteś pewien, że liniowa zależność utrzymuje się poza zakresem predyktorów w twojej próbce obserwacji, istnieje termin w wariancji przewidywanej odpowiedzi dla nowej obserwacji - viz - to powinno cię martwić.

x_{1}, \dots, x_{n}

$x_1, \ldots, x_n$

n

$n$

x^{*}

$x^*$

\frac{(x^{*} - \bar{x})^{2}}{\sum_{i}^{n} (x_{i} - \bar{x})^{2}}

$\frac{(x^* - \bar{x})^2}{\sum_i^n(x_i - \bar{x})^2}$

Scortchi - Przywróć Monikę

Ben Zgadzam się, zgadzam się, czy nie chodzi o to, że X jest niezauważony? W przeciwnym razie, po co robić regresję? Być może ustalenie limitu, na ile pozwolę sobie odejść od obserwowanego zakresu danych, może być odpowiedzialne. Na pewno 10% byłoby bezpieczne ... nie?

Johnson Jason,

Moją ulubioną miarą na ten temat jest bmj.com/content/317/7155/409 .

Carlo Lazzaro,

@ Ben, @ Johnson - Być może spór. Istnieje inne zastosowanie regresji. Można go użyć do wyjaśnienia, a nie do przewidzenia. Myślę, że szczególnie w naukach społecznych jest to główne zastosowanie regresji. Przeczytałem wiele argumentów, takich jak: Uważamy, że (zmienne) Efekt efektu B, przeprowadzamy regresję, stwierdzamy, że 95% przedział ufności współczynników A nie zawiera 0 i dochodzimy do wniosku, że istnieje związek formy A powoduje B. Nawiasem mówiąc, nigdy nie robię tego!

meh

Odpowiedzi:

Prawie wszystkie odpowiedzi i komentarze ostrzegają przed niebezpieczeństwami ekstrapolacji. Chciałbym zaoferować bardziej formalny sposób sprawdzenia, czy przewidywanie jest ostrożne. Metoda oparta jest na macierzy rzutowania na przestrzeń rozpiętą na kolumnach które zakładamy pełną rangą, tzn. Zakładamy, że przestrzeń kolumny jest p-wymiarowa. Jak pamiętasz $\mathbf{X}$

H = X {(X^{T} X)}^{- 1} X

$\mathbf{H}=\mathbf{X}\left(\mathbf{X}^{T}\mathbf{X} \right)^{-1} \mathbf{X}$

Można wykazać, że ukośne elementy spełniają , przy okazji, jest to konsekwencja idempotencji i można je interpretować jako odległości od środka ciężkości przestrzeni predyktora. Jest to prawdą, ponieważ istnieje zależność jeden-do-jednego między dźwigniami a kwadratowymi odległościami Mahalanobisa. Sposobem na wykrycie ukrytych ekstrapolacji byłoby zatem sprawdzenie, jak daleko nowe obsevation leży od środka ciężkości, prawda? Można tego dokonać, obliczając nowy element ukośny. Przywołując niektóre podstawowe zasady mnożenia macierzy, mamy $\mathbf{H}$ $0<\mathbf{H}_{ii}<1,\ i=1,\ldots,n$ $\mathbf{H}_{ii}$

{H.}_{n mi w, n mi w} = x_{n mi w}^{T.} {(X^{T.} X)}^{- 1} x_{n mi w}

$\mathbf{H}_{new,new} = \mathbf{x}_{new}^{T} \left(\mathbf{X}^{T}\mathbf{X} \right)^{-1} \mathbf{x}_{new}$

Jeśli jest znacznie większy niż reszta elementów ukośnych, oznacza to, że twoja nowa obserwacja leży dość daleko od środka ciężkości, a przewidywanie jest prawdopodobnie ryzykownym ruchem. Decyzja o tym, jak duży jest zbyt duży, wymaga pewnej oceny, więc technika ta nie jest niezawodna. Jego piękno polega jednak na tym, że działa we wszystkich wymiarach, kiedy nie można patrzeć na zwykły wykres rozproszenia. $\mathbf{H}_{new,new}$

Nie jestem pewien, jakiego oprogramowania używasz, ale prawie wszystkie z nich zwrócą macierz kapelusza z prawidłowym poleceniem. Więc sugeruję, abyś spojrzał przed podjęciem decyzji.

JohnK
źródło

Dobra robota, JohnK, jest to bardzo pomocne. Do Twojej wiadomości używam regresji Excel.

Johnson Jason

Błąd prognozy wzrasta kwadratowo wraz z odległością od średniej. Równanie regresji i wyniki pozwalają zmierzyć rozmiar błędu w obserwowanym zakresie danych, a model jest odpowiedni tylko w tym samym zakresie.

Poza tym zakresem może się zdarzyć wiele rzeczy. Po pierwsze, prognozy stają się coraz gorsze ze względu na wzrost błędu prognozy.

Po drugie, model może się całkowicie zepsuć. Najłatwiej to sprawdzić, projektując model odnoszący cenę do czasu: Nie można przewidywać czasu ujemnego.

Po trzecie, zależność liniowa może być nieodpowiednia. W twoim przykładzie prawie na pewno istnieją korzyści skali, które stałyby się bardzo zauważalne, gdybyś spróbował przewidzieć daleko poza zakresem obserwowanych wartości.

Zabawny przykład tego samego efektu pojawia się w jednym z dzieł Marka Twaina , w którym próbuje on modelować długość rzeki Mississippi w czasie --- było / było dość wietrznie i co roku skracało się / ed z powodu erozji niektórych zakrętów, a także sztucznych skrótów --- i „przewiduje”, że za tak wiele lat odległość między Kairem, Illinois i Nowym Orleanem zmniejszy się do około mili i trzech czwartych).

Na koniec zauważ, że zakres obserwowanych wartości może być dość skomplikowany, jeśli masz więcej niż jedną zmienną predykcyjną. (Ze względu na korelacje między predyktorami często nie można po prostu wziąć pola zdefiniowanego przez maksima i minima w każdym predyktorze).

użytkownik3697176
źródło

(+1) Chociaż stwierdzenie, że model jest odpowiedni, tylko w zakresie obserwowanych danych jest nieco silny - to, że opisywane problemy stają się coraz bardziej związane z oddalaniem się od niego.

Scortchi - Przywróć Monikę

Czy jest więc jakieś obejście, jak daleko jest bezpieczna odległość, aby odejść od obserwowanego zakresu danych? Mniej niż 1 odchylenie standardowe w porządku?

Johnson Jason

@Scortchi. Punkt wzięty. W większości sytuacji degradacja modelu jest stopniowa. Jednak od czasu do czasu nie są twarde granice, i stara się wyjść poza te będzie powodować smutku.

user3697176

@JohnsonJason: Nie ma sensu szukać zasady praktycznej. Możesz łatwo obliczyć przedziały prognozowania, zakładając, że Twój model może być ekstrapolowany; stopień, w jakim można ufać ekstrapolacji, zależy od wiedzy merytorycznej: dopuszczalne jest różne w zależności od przypadku.

Scortchi - Przywróć Monikę

Doskonałe punkty (+1). Ale nie ma logicznego problemu z przewidywaniem ceny na czas ujemny. Prawdziwy problem polega na tym, że przewidujesz cenę ujemną na określony czas (zwykle w przeszłości, w praktyce). Często oznacza to, że model jest błędny jakościowo, ponieważ ekstrapolacja powoduje zbyt długie rozciąganie linii (lub krzywej). Na przykład funkcja łącza logarytmicznego zawsze oznacza pozytywne przewidywania.

Nick Cox

Nie możesz podejmować decyzji opartych na danych w obszarach, w których nie masz danych. Koniec opowieści. Dane mogą bardzo dobrze obsługiwać kształt liniowy dla zakresu, w którym gromadzone są dane, ale nie masz powodów, by sądzić, że ten kształt nadal jest liniowy poza twoim zakresem. Może to być dowolny kształt pod słońcem!

Możesz założyć, że kształt liniowy wykracza poza zakres danych, ale jest to subiektywne założenie nie poparte zebranymi danymi. Sugerowałbym, aby skonsultować się z ekspertem merytorycznym, aby sprawdzić, na podstawie ich wiedzy merytorycznej, jak bezpieczne jest to założenie.

TrynnaDoStat
źródło

Więc po co właściwie robić regresję, jeśli nie możemy przewidzieć Y dla niezauważonych X

Johnson Jason,

Myślę, że chodzi o to, że nadal możesz przewidywać wewnątrz zakresu, po prostu nie jest wskazane przewidywanie poza zakresem. Przypuszczalnie większość nowych punktów danych będzie w tym zakresie, więc model pozostanie przydatny przez większość czasu

Ryan Zotti