Przedziały ufności i prognozy modelu regresji liniowej

9

Okej, więc próbuję zrozumieć regresję liniową. Mam zestaw danych i wszystko wygląda całkiem dobrze, ale jestem zdezorientowany. Oto moje podsumowanie modelu liniowego:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

więc wartość p jest naprawdę niska, co oznacza, że ​​bardzo mało prawdopodobne jest uzyskanie korelacji między x, y przypadkiem. Jeśli go wykreślę, a następnie narysuję linię regresji, wygląda to tak: http://s14.directupload.net/images/120923/l83eellv.png (Miałem to jako obraz, ale jestem - jako nowy użytkownik - obecnie nie wolno go opublikować) Niebieskie linie = przedział ufności Zielone linie = przedział predykcji

Teraz wiele punktów nie mieści się w przedziale ufności, dlaczego tak się dzieje? Myślę, że żaden z punktów danych nie mieści się w linii regresji b / c, są one po prostu dość daleko od siebie, ale czego nie jestem pewien: czy to prawdziwy problem? Nadal znajdują się wokół linii regresji i można całkowicie zobaczyć wzór. Ale czy to wystarczy? Próbuję to rozgryźć, ale ciągle zadaję sobie te same pytania.

Co do tej pory myślałem: przedział ufności mówi, że jeśli obliczasz CI w kółko, w 95% przypadków prawdziwa średnia wpada w CI. Więc: nie jest problemem, że dp nie wpadają w to, ponieważ tak naprawdę nie są to środki. Z drugiej strony przedział przewidywania mówi, że jeśli obliczasz PI w kółko, w 95% przypadków prawdziwa WARTOŚĆ wpada w ten przedział. Dlatego ważne jest, aby mieć w tym punkty (które mam). Potem przeczytałem, że PI zawsze musi mieć szerszy zakres niż CI. Dlaczego? Oto co zrobiłem:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

a następnie wykreśliłem to przez:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Teraz, jeśli obliczę CI i PI dla dodatkowych danych, nie ma znaczenia, jak szeroki wybiorę zakres, otrzymam dokładnie takie same linie jak powyżej. Nie rozumiem. Co to znaczy? Byłoby to:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

dla nowego x wybrałem różne sekwencje. Jeśli sekwencja ma inną liczbę obserwacji niż zmienne w mojej regresji, otrzymuję ostrzeżenie. Dlaczego miałoby to być?

Lisa
źródło

Odpowiedzi:

3

Rozumiem niektóre z twoich pytań, ale inne nie są jasne. Pozwól, że odpowiem i przedstawię kilka faktów, a być może rozwiąże to twoje zamieszanie.

Dopasowanie, które masz, jest wyjątkowo dobre. Przedziały ufności powinny być bardzo wąskie. Można wziąć pod uwagę dwa typy obszarów ufności: region bsimultanoues, który ma obejmować całą funkcję prawdziwej regresji przy danym poziomie ufności.

Inne, na które patrzysz, to przedziały ufności dla dopasowanych punktów regresji. Mają one na celu pokrycie jedynie dopasowanej wartości y przy danej wartości (wartościach) zmiennej (zmiennych). Nie mają one obejmować wartości y przy innych wartościach zmiennych towarzyszących. W rzeczywistości, jeśli odstępy są bardzo napięte, tak jak powinny być w twoim przypadku, nie będą obejmowały wielu, jeśli którykolwiek z punktów danych, gdy odejdziesz od ustalonych wartości zmiennych towarzyszących (zmiennych). Dla tego rodzaju zasięgu należy uzyskać jednocześnie krzywe pewności (krzywe górnej i dolnej granicy).

Teraz prawdą jest, że jeśli przewidujesz, że masz określoną wartość współzmiennej i chcesz mieć taki sam poziom ufności dla przedziału predykcji, jaki użyłeś dla przedziału ufności dla y przy danej wartości zmiennej towarzyszącej, przedział będzie szerszy. Powodem jest to, że model mówi ci, że zostanie dodana zmienność, ponieważ nowy y będzie miał swój własny niezależny błąd, który należy uwzględnić w przedziale czasowym. Ten składnik błędu nie wchodzi w oszacowania na podstawie danych użytych w dopasowaniu.

Michael R. Chernick
źródło
Przepraszam, wciąż nie rozumiem. Wyjaśniłeś 2 rodzaje przedziału ufności, ale jakie masz na myśli, mówiąc „te, na które patrzę”? b / c Narysowałem zarówno prognozę, jak i przedział ufności i mam problemy ze zrozumieniem różnicy. Dodałem też kilka poleceń R do mojego poprzedniego postu, aby wyjaśnić, co robiłem
lisa
Krzywe nie wyjaśniają, czy pasma ufności są uzyskiwane przez konstruowanie równoczesnych krzywych ufności, czy po prostu płynnie łączą poszczególne przedziały ufności. Gdyby były one jednoczesne, nie zobaczyłbyś tylu dopasowanych punktów poza krzywą. Ale jak zauważyłem, może się to zdarzyć w poszczególnych odstępach czasu. Nie widziałem jeszcze edycji zawierającej kod R.
Michael R. Chernick,
Nie znam R wystarczająco dobrze, aby odpowiedzieć na konkretne pytania R. Nie wiem, czy ekspert R może powiedzieć, czy krzywe ufności i krzywe prognozowania łączą poszczególne przedziały ufności, czy generują jednocześnie krzywe. Czy twój kod robi to, co zamierzasz?
Michael R. Chernick,