Próbuję zrozumieć pochodzenie zakrzywionych kształtów pasm ufności związanych z regresją liniową OLS i sposób, w jaki odnosi się to do przedziałów ufności parametrów regresji (nachylenie i przecięcie), na przykład (przy użyciu R):
require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)
Wydaje się, że pasmo jest powiązane z granicami linii obliczonymi z przecięciem 2,5% i nachyleniem 97,5%, a także z przecięciem 97,5% i nachyleniem 2,5% (choć nie do końca):
xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))
Nie rozumiem dwóch rzeczy:
- Co z kombinacją nachylenia 2,5% i przechwytu 2,5%, a także nachylenia 97,5% i przechwytywania 97,5%? Dają one linie, które są wyraźnie poza pasmem wykreślonym powyżej. Może nie rozumiem znaczenia przedziału ufności, ale jeśli w 95% przypadków moje oszacowania mieszczą się w przedziale ufności, wydaje się, że to możliwy wynik?
- Co określa minimalną odległość między górną i dolną granicą (tj. Blisko punktu, w którym dwie linie dodane powyżej przechwytują)?
Wydaje mi się, że oba pytania powstają, ponieważ nie wiem / nie rozumiem, w jaki sposób te pasma są obliczane.
Jak obliczyć górną i dolną granicę za pomocą przedziałów ufności parametrów regresji (bez polegania na predykcji () lub podobnej funkcji, tj. Ręcznie)? Próbowałem rozszyfrować funkcję predykcji.lm w języku R, ale kodowanie jest poza mną. Będę wdzięczny za wszelkie wskazówki dotyczące odpowiedniej literatury lub wyjaśnień odpowiednich dla początkujących statystyk.
Dzięki.
Odpowiedzi:
źródło
Fajne pytanie. Ważne jest, aby zrozumieć te pojęcia i nie są one proste.
Kiedy połączymy wszystkie przedziały ufności, dla każdego możliwego x, daje nam to szare pasy, które widzisz na wyjściu.
Funkcjonalnie oznacza to, że jesteśmy w 95% pewni, że prawdziwa linia regresji leży gdzieś w tej szarej strefie.
Ponieważ przedziały ufności są obliczane przy użyciu 95% przedziałów ufności dla każdego pojedynczego punktu, jest to bardzo ściśle powiązane z 95% CI dla przechwytywania. W rzeczywistości przy x = 0 krawędzie szarej strefy będą dokładnie pokrywać się z 95% CI dla przechwytywania, ponieważ w ten sposób wygenerowaliśmy przedziały ufności. Dlatego linie, które dodałeś powyżej, uderzają w krawędź szarego paska w lewo.
Jednak nachylenie jest nieco inne. Wpływa to na ograniczenia, jak widzieliśmy powyżej, ale nachylenia i przecięcia nie da się rozdzielić w regresji liniowej. Tak więc nie można tak naprawdę powiedzieć „a co jeśli przecięcie było na minimum zakresu CI, a nachylenie było również na minimum?” Ta linia generowałaby punkty, które są znacznie poza naszymi 95% CI dla wielu x. Oznacza to, że jesteśmy w 95% pewni, że nie jest to nasza prawdziwa linia regresji.
Jest tutaj przyzwoity program PowerPoint, który może pomóc w wizualizacji niektórych z tych rzeczy: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf
źródło