W prostym modelu liniowym z jedną zmienną objaśniającą
Znaleźć że usunięcie termin przechwytujący znacznie poprawia dopasowanie (wartość przechodzi od 0,3 do 0,9). Jednak pojęcie przechwytywania wydaje się istotne statystycznie.
Z przechwyceniem:
Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2435 on 218 degrees of freedom Multiple R-squared: 0.316, Adjusted R-squared: 0.3129 F-statistic: 100.7 on 1 and 218 DF, p-value: < 2.2e-16
Bez przechwytywania:
Call: lm(formula = alpha ~ 0 + delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.92474 -0.15021 0.05114 0.21078 0.85480 Coefficients: Estimate Std. Error t value Pr(>|t|) delta 0.85374 0.01632 52.33 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2842 on 219 degrees of freedom Multiple R-squared: 0.9259, Adjusted R-squared: 0.9256 F-statistic: 2738 on 1 and 219 DF, p-value: < 2.2e-16
Jak interpretowałbyś te wyniki? Czy termin przechwytujący powinien być uwzględniony w modelu, czy nie?
Edytować
Oto pozostałe sumy kwadratów:
RSS(with intercept) = 12.92305
RSS(without intercept) = 17.69277
r
linear-model
interpretation
r-squared
intercept
Ernest A.
źródło
źródło
Odpowiedzi:
R
Ale co się stanie, jeśli w modelu nie ma przechwytywania?
R
Ale czym się różnią i kiedy?
Weźmy krótką dygresję do jakiejś algebry liniowej i zobaczmy, czy możemy dowiedzieć się, co się dzieje. Po pierwsze, nazwijmy dopasowane wartości z modelu za pomocą intercept i dopasowane wartości z modelu bez przechwytywania . ~ yy^ y~
Możemy przepisać wyrażenia dla i jako a odpowiednio.R2 R20
Teraz, ponieważ , a następnie jeśli i tylko jeśli∥y∥22=∥y−y¯1∥22+ny¯2 R20>R2
Lewa strona jest większa niż jeden, ponieważ model odpowiadający jest zagnieżdżony w . Drugi termin po prawej stronie to średnia kwadratowa odpowiedzi podzielona przez średni błąd kwadratowy modelu tylko przechwytującego. Tak więc, im większa średnia odpowiedź w stosunku do innej odmiany, tym bardziej „luz” mamy i większa szansa, że zdominuje .y~ y^ R20 R2
Zauważ, że wszystkie rzeczy zależne od modelu znajdują się po lewej stronie, a rzeczy nie zależne od modelu po prawej stronie.
Ok, więc jak sprawić, by stosunek po lewej stronie był mały?
Przypomnijmy, że i gdzie i są macierzami projekcyjne odpowiadające podprzestrzeni Änd taki sposób, że .y~=P0y y^=P1y P0 P1 S0 S1 S0⊂S1
Tak więc, aby stosunek do być blisko do jednego, musimy podprzestrzenie i być bardzo podobne. Teraz i różnią się tylko czy jest wektorem podstawa czy nie, więc to oznacza, że lepiej być podprzestrzeń że już leży bardzo blisko .S0 S1 S0 S1 1 S0 1
Zasadniczo oznacza to, że nasz predyktor powinien sam mieć silne przesunięcie średnie i że to przesunięcie średnie powinno zdominować jego odmianę.
Przykład
W tym przypadku próbujemy wygenerować przykład z przecięciem jawnie w modelu, który zachowuje się blisko przypadku w pytaniu. Poniżej znajduje się prosty
R
kod do zademonstrowania.Daje to następujący wynik. Zaczynamy od modelu z przechwyceniem.
Następnie zobacz, co się stanie, gdy wykluczymy przechwytywanie.
Poniżej znajduje się wykres danych z modelem z punktem przecięcia w kolorze czerwonym i modelem bez punktu przecięcia w kolorze niebieskim.
źródło
Decyzję oparłbym na kryteriach informacyjnych, takich jak kryteria Akaike lub Bayes-Schwarz, a nie R ^ 2; nawet wtedy nie uważałbym ich za absolutne.
Jeśli masz proces, w którym nachylenie jest bliskie zeru, a wszystkie dane są dalekie od początku, poprawna wartość R ^ 2 powinna być niska, ponieważ większość zmian w danych będzie spowodowana szumem. Jeśli spróbujesz dopasować takie dane do modelu bez przechwytywania, wygenerujesz duży i niewłaściwy termin nachylenia i prawdopodobnie lepiej wyglądający R ^ 2, jeśli zostanie użyta wersja bezpłatna przechwytująca.
Poniższy wykres pokazuje, co dzieje się w tych ekstremalnych przypadkach. Tutaj proces generowania jest taki, że x = 100,100,1, .... a y to tylko 100 + losowy szum ze średnią 0 i odchyleniem standardowym .1. Punkty są czarnymi okręgami, dopasowanie bez przecięcia to niebieska linia, a dopasowanie z przecięciem (zerowanie nachylenia) to czerwona linia:
[Przepraszam, że nie pozwoli mi opublikować wykresu; uruchom poniższy kod R, aby go wygenerować. Pokazuje początek w lewym dolnym rogu, skupisko punktów w prawym górnym rogu. Nieprawidłowe dopasowanie bez przecięcia przechodzi od dolnej lewej do prawej górnej, a prawidłowe dopasowanie to linia równoległa do osi x]
Prawidłowy model do tego powinien mieć R ^ 2 równy zero - być stałym plus losowy szum. R da ci i R ^ 2 0,99 za dopasowanie bez przechwytywania. Nie będzie to miało większego znaczenia, jeśli użyjesz modelu tylko do prognozowania z wartościami xw zakresie danych treningowych, ale zawiedzie się źle, jeśli x wykracza poza wąski zakres zestawu treningowego lub próbujesz uzyskać prawdziwy wgląd poza zwykłymi przewidywaniami.
AIC poprawnie pokazuje, że preferowany jest model z przechwyceniem. Kod R tego jest następujący:
Wyjście AIC to
Zauważ, że AIC nadal otrzymuje niewłaściwy model w tym przypadku, ponieważ prawdziwym modelem jest model stały; ale inne liczby losowe dadzą dane, dla których AIC jest najniższy dla modelu stałego. Zauważ, że jeśli odrzucisz nachylenie, powinieneś ponownie zamontować model bez niego, nie próbuj używać przecięcia z modelu i zignoruj nachylenie.
źródło