Co sądzisz o używaniu regresji do wyświetlania poza zakresem danych? Jeśli jesteśmy pewni, że podąża za kształtem liniowym lub potęgowym, czy model nie byłby przydatny poza zakresem danych? Na przykład mam wolumen napędzany przez cenę. Uważamy, że powinniśmy być w stanie prognozować ceny poza zakresem danych. Twoje myśli?
VOL PRICE
3044 4.97
2549 4.97
3131 4.98
2708 4.98
2860 4.98
2907 4.98
3107 4.98
3194 4.98
2753 4.98
3228 4.98
3019 4.98
3077 4.99
2597 4.99
2706 4.99
3000 4.99
3022 4.99
3084 4.99
3973 4.99
3675 4.99
3065 4.99
3407 4.99
2359 4.99
2802 4.99
2589 4.99
2476 4.99
2387 5
3265 5
2039 5.14
1842 5.15
2660 5.37
1796 5.46
1734 5.46
1881 5.46
2204 5.58
1477 5.77
1620 5.84
1909 5.87
1744 5.87
1247 5.87
1848 5.88
1641 5.88
1758 5.88
1718 5.88
1656 5.88
1822 5.88
1556 5.89
1643 5.9
1850 5.91
1901 5.91
1837 5.91
1773 5.92
1729 5.92
regression
dataset
linear-model
Johnson Jason
źródło
źródło
Odpowiedzi:
Prawie wszystkie odpowiedzi i komentarze ostrzegają przed niebezpieczeństwami ekstrapolacji. Chciałbym zaoferować bardziej formalny sposób sprawdzenia, czy przewidywanie jest ostrożne. Metoda oparta jest na macierzy rzutowania na przestrzeń rozpiętą na kolumnach które zakładamy pełną rangą, tzn. Zakładamy, że przestrzeń kolumny jest p-wymiarowa. Jak pamiętaszX
Można wykazać, że ukośne elementy spełniają , przy okazji, jest to konsekwencja idempotencji i można je interpretować jako odległości od środka ciężkości przestrzeni predyktora. Jest to prawdą, ponieważ istnieje zależność jeden-do-jednego między dźwigniami a kwadratowymi odległościami Mahalanobisa. Sposobem na wykrycie ukrytych ekstrapolacji byłoby zatem sprawdzenie, jak daleko nowe obsevation leży od środka ciężkości, prawda? Można tego dokonać, obliczając nowy element ukośny. Przywołując niektóre podstawowe zasady mnożenia macierzy, mamyH. 0 <H.ja ja< 1 , i = 1 , … , n H.ja ja
Jeśli jest znacznie większy niż reszta elementów ukośnych, oznacza to, że twoja nowa obserwacja leży dość daleko od środka ciężkości, a przewidywanie jest prawdopodobnie ryzykownym ruchem. Decyzja o tym, jak duży jest zbyt duży, wymaga pewnej oceny, więc technika ta nie jest niezawodna. Jego piękno polega jednak na tym, że działa we wszystkich wymiarach, kiedy nie można patrzeć na zwykły wykres rozproszenia.H.n e w , n e w
Nie jestem pewien, jakiego oprogramowania używasz, ale prawie wszystkie z nich zwrócą macierz kapelusza z prawidłowym poleceniem. Więc sugeruję, abyś spojrzał przed podjęciem decyzji.
źródło
Błąd prognozy wzrasta kwadratowo wraz z odległością od średniej. Równanie regresji i wyniki pozwalają zmierzyć rozmiar błędu w obserwowanym zakresie danych, a model jest odpowiedni tylko w tym samym zakresie.
Poza tym zakresem może się zdarzyć wiele rzeczy. Po pierwsze, prognozy stają się coraz gorsze ze względu na wzrost błędu prognozy.
Po drugie, model może się całkowicie zepsuć. Najłatwiej to sprawdzić, projektując model odnoszący cenę do czasu: Nie można przewidywać czasu ujemnego.
Po trzecie, zależność liniowa może być nieodpowiednia. W twoim przykładzie prawie na pewno istnieją korzyści skali, które stałyby się bardzo zauważalne, gdybyś spróbował przewidzieć daleko poza zakresem obserwowanych wartości.
Zabawny przykład tego samego efektu pojawia się w jednym z dzieł Marka Twaina , w którym próbuje on modelować długość rzeki Mississippi w czasie --- było / było dość wietrznie i co roku skracało się / ed z powodu erozji niektórych zakrętów, a także sztucznych skrótów --- i „przewiduje”, że za tak wiele lat odległość między Kairem, Illinois i Nowym Orleanem zmniejszy się do około mili i trzech czwartych).
Na koniec zauważ, że zakres obserwowanych wartości może być dość skomplikowany, jeśli masz więcej niż jedną zmienną predykcyjną. (Ze względu na korelacje między predyktorami często nie można po prostu wziąć pola zdefiniowanego przez maksima i minima w każdym predyktorze).
źródło
Nie możesz podejmować decyzji opartych na danych w obszarach, w których nie masz danych. Koniec opowieści. Dane mogą bardzo dobrze obsługiwać kształt liniowy dla zakresu, w którym gromadzone są dane, ale nie masz powodów, by sądzić, że ten kształt nadal jest liniowy poza twoim zakresem. Może to być dowolny kształt pod słońcem!
Możesz założyć, że kształt liniowy wykracza poza zakres danych, ale jest to subiektywne założenie nie poparte zebranymi danymi. Sugerowałbym, aby skonsultować się z ekspertem merytorycznym, aby sprawdzić, na podstawie ich wiedzy merytorycznej, jak bezpieczne jest to założenie.
źródło