Zrozumienie kształtu i obliczanie pasm ufności w regresji liniowej

33

Próbuję zrozumieć pochodzenie zakrzywionych kształtów pasm ufności związanych z regresją liniową OLS i sposób, w jaki odnosi się to do przedziałów ufności parametrów regresji (nachylenie i przecięcie), na przykład (przy użyciu R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

wprowadź opis zdjęcia tutaj

Wydaje się, że pasmo jest powiązane z granicami linii obliczonymi z przecięciem 2,5% i nachyleniem 97,5%, a także z przecięciem 97,5% i nachyleniem 2,5% (choć nie do końca):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

wprowadź opis zdjęcia tutaj

Nie rozumiem dwóch rzeczy:

  1. Co z kombinacją nachylenia 2,5% i przechwytu 2,5%, a także nachylenia 97,5% i przechwytywania 97,5%? Dają one linie, które są wyraźnie poza pasmem wykreślonym powyżej. Może nie rozumiem znaczenia przedziału ufności, ale jeśli w 95% przypadków moje oszacowania mieszczą się w przedziale ufności, wydaje się, że to możliwy wynik?
  2. Co określa minimalną odległość między górną i dolną granicą (tj. Blisko punktu, w którym dwie linie dodane powyżej przechwytują)?

Wydaje mi się, że oba pytania powstają, ponieważ nie wiem / nie rozumiem, w jaki sposób te pasma są obliczane.

Jak obliczyć górną i dolną granicę za pomocą przedziałów ufności parametrów regresji (bez polegania na predykcji () lub podobnej funkcji, tj. Ręcznie)? Próbowałem rozszyfrować funkcję predykcji.lm w języku R, ale kodowanie jest poza mną. Będę wdzięczny za wszelkie wskazówki dotyczące odpowiedniej literatury lub wyjaśnień odpowiednich dla początkujących statystyk.

Dzięki.

David
źródło
4
Poniżej masz dwie dobre odpowiedzi. Jeśli chcesz uzyskać więcej informacji, może pomóc ci przeczytać moją odpowiedź tutaj: interwał przewidywania regresji liniowej , który dotyczy przedziałów przewidywania, ale idea jest bardzo podobna.
gung - Przywróć Monikę
2
W tym poście podano szczegółowe intuicyjne wyjaśnienie: Kształt przedziału ufności dla przewidywanych wartości w regresji liniowej
Glen_b
TA za pomocne odpowiedzi i doskonałe linki.
David

Odpowiedzi:

19

XsY^X

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2

sY|X

sY|X=i=1n(YiY^)2n2

Y^±tν=n2,α/2sY^

YX

β^α^

Alexis
źródło
1
Czy istnieje podręcznik wyjaśniający, skąd pochodzą te formuły?
Michael Goerz
1
@MichaelGoerz Każda wprowadzająca statystyka, biostatystyka, ekonometria itp., Która obejmuje zwykłą regresję liniową metodą najmniejszych kwadratów.
Alexis,
Mam Wasserman - All of Statistics, James i in. - An Introduction to Statistics Learning oraz Hastie i in. - Elementy uczenia statystycznego. W żadnym z nich nie udało mi się znaleźć równań dla pasm ufności regresji liniowej. Czy masz numer rozdziału / eq dla którejkolwiek z tych lub innej powszechnie dostępnej książki?
Michael Goerz
2
Żadna z wymienionych przez ciebie książek nie jest rodzajem książek, o których dyskutuje Alexis. Książka Foxa o regresji stosowanej ma ją, jeśli dobrze pamiętam.
Glen_b
1
@MichaelGoerz Podobnie jak Pagano, M. i Gauvreau, K. (2000). Zasady biostatystyki . Duxbury Press, Pacific Grove, Kalifornia, 2. wydanie i Glantz, SA (2011). podkład biostatystyki . McGraw-Hill Medical, New York, NY, 7. wydanie, mimo że nie są to teksty specyficzne dla regresji.
Alexis
16

Fajne pytanie. Ważne jest, aby zrozumieć te pojęcia i nie są one proste.

y¯y¯y¯

Kiedy połączymy wszystkie przedziały ufności, dla każdego możliwego x, daje nam to szare pasy, które widzisz na wyjściu.

Funkcjonalnie oznacza to, że jesteśmy w 95% pewni, że prawdziwa linia regresji leży gdzieś w tej szarej strefie.

Ponieważ przedziały ufności są obliczane przy użyciu 95% przedziałów ufności dla każdego pojedynczego punktu, jest to bardzo ściśle powiązane z 95% CI dla przechwytywania. W rzeczywistości przy x = 0 krawędzie szarej strefy będą dokładnie pokrywać się z 95% CI dla przechwytywania, ponieważ w ten sposób wygenerowaliśmy przedziały ufności. Dlatego linie, które dodałeś powyżej, uderzają w krawędź szarego paska w lewo.

Jednak nachylenie jest nieco inne. Wpływa to na ograniczenia, jak widzieliśmy powyżej, ale nachylenia i przecięcia nie da się rozdzielić w regresji liniowej. Tak więc nie można tak naprawdę powiedzieć „a co jeśli przecięcie było na minimum zakresu CI, a nachylenie było również na minimum?” Ta linia generowałaby punkty, które są znacznie poza naszymi 95% CI dla wielu x. Oznacza to, że jesteśmy w 95% pewni, że nie jest to nasza prawdziwa linia regresji.

x¯sy^x(xx¯)x=x¯

Jest tutaj przyzwoity program PowerPoint, który może pomóc w wizualizacji niektórych z tych rzeczy: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf

Duncan
źródło
2
Myślę, że to naprawiłem - zastąpiłem yhaty ybarem. Czy to bardziej poprawne? Zawsze to schrzanię.
Duncan
Ta. Jedną z rzeczy, która pozostaje dla mnie niejasna, jest to, jak sprawić, by następujące dwa stwierdzenia były spójne: „Oznacza to, że pod względem funkcjonalnym mamy 95% pewności, że prawdziwa linia regresji leży gdzieś w tej szarej strefie”. vs „[...] przedziały ufności dotyczące przecięcia i nachylenia są jeszcze innymi wielkościami”. Jeśli pierwsze zdanie jest poprawne, musi istnieć jakiś (matematyczny?) Związek między CI punktu przecięcia i nachylenia a pasmem wykreślonym powyżej? Myślę, że odnosi się to do części mojego pytania: Jak obliczyć (jeśli to możliwe) pasmo powyżej, używając CI nachylenia i przechwytywania?
David
1
x¯
Ładny, zrozumiały post i fajny link! +1
theforestecologist