Okej, więc próbuję zrozumieć regresję liniową. Mam zestaw danych i wszystko wygląda całkiem dobrze, ale jestem zdezorientowany. Oto moje podsumowanie modelu liniowego:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
więc wartość p jest naprawdę niska, co oznacza, że bardzo mało prawdopodobne jest uzyskanie korelacji między x, y przypadkiem. Jeśli go wykreślę, a następnie narysuję linię regresji, wygląda to tak: http://s14.directupload.net/images/120923/l83eellv.png (Miałem to jako obraz, ale jestem - jako nowy użytkownik - obecnie nie wolno go opublikować) Niebieskie linie = przedział ufności Zielone linie = przedział predykcji
Teraz wiele punktów nie mieści się w przedziale ufności, dlaczego tak się dzieje? Myślę, że żaden z punktów danych nie mieści się w linii regresji b / c, są one po prostu dość daleko od siebie, ale czego nie jestem pewien: czy to prawdziwy problem? Nadal znajdują się wokół linii regresji i można całkowicie zobaczyć wzór. Ale czy to wystarczy? Próbuję to rozgryźć, ale ciągle zadaję sobie te same pytania.
Co do tej pory myślałem: przedział ufności mówi, że jeśli obliczasz CI w kółko, w 95% przypadków prawdziwa średnia wpada w CI. Więc: nie jest problemem, że dp nie wpadają w to, ponieważ tak naprawdę nie są to środki. Z drugiej strony przedział przewidywania mówi, że jeśli obliczasz PI w kółko, w 95% przypadków prawdziwa WARTOŚĆ wpada w ten przedział. Dlatego ważne jest, aby mieć w tym punkty (które mam). Potem przeczytałem, że PI zawsze musi mieć szerszy zakres niż CI. Dlaczego? Oto co zrobiłem:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
a następnie wykreśliłem to przez:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Teraz, jeśli obliczę CI i PI dla dodatkowych danych, nie ma znaczenia, jak szeroki wybiorę zakres, otrzymam dokładnie takie same linie jak powyżej. Nie rozumiem. Co to znaczy? Byłoby to:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
dla nowego x wybrałem różne sekwencje. Jeśli sekwencja ma inną liczbę obserwacji niż zmienne w mojej regresji, otrzymuję ostrzeżenie. Dlaczego miałoby to być?
źródło