Wzór na 95% przedział ufności dla

13

Poszukałem google i przeszukałem stats.stackexchange, ale nie mogę znaleźć wzoru na obliczenie 95% przedziału ufności dla wartości dla regresji liniowej. Czy ktoś może to zapewnić?R2)

Jeszcze lepiej, powiedzmy, że uruchomiłem regresję liniową poniżej w R. Jak obliczyć 95% przedział ufności dla wartości za pomocą kodu R.R2)

lm_mtcars <- lm(mpg ~ wt, mtcars)
luciano
źródło
1
Dobrze wiesz, że zależność między korelacją i polega na tym, że zwiększasz współczynnik korelacji, aby uzyskać więc dlaczego nie obliczyć przedziału ufności dla a następnie obliczyć dolną i górną granicę przedziału? R 2 R 2 rrR2)R2r
1
@ ZERO: będzie działać w prostej regresji liniowej, to znaczy z jednym predyktorem i punktem przecięcia. Nie będzie działać w przypadku wielokrotnej regresji liniowej z więcej niż jednym predyktorem.
Stephan Kolassa
@StephanKolassa, bardzo prawda! Wydaje mi się, że bazowałem na jego Rkodzie, w którym jest tylko jeden regresor, ale to jest bardzo dobry punkt do wyjaśnienia.
Możesz np. Użyć bardzo małej funkcji R github.com/mayer79/R-confidence-intervals-R-squared w oparciu o właściwości niecentralnego rozkładu F.
Michael M

Odpowiedzi:

16

Zawsze możesz go uruchomić:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter i Bithell (2000, Statistics in Medicine) zapewniają czytelne wprowadzenie do przedziałów ufności ładowania, choć nie są specjalnie skoncentrowane na .R2)

Stephan Kolassa
źródło
1
(+1) Może być interesujące, że przybliżona formuła cytowana przez @Durden, przy i daje przedział . Byłoby prawie całkowicie poprawne, gdybyśmy pomnożyli współczynnik pomnożenie SE w tej formule! n=32k=1(0,546,0,960)2)
whuber
Warto również zauważyć, że można uzyskać inne typy przedziału ufności (np. BCa) z dystrybucji ponownego próbkowania bootstrap za pomocą boot.ci().
Jeffrey Girard
7

W R możesz skorzystać z CI.Rsq()funkcji zapewnianej przez pakiet psychometryczny . Jeśli chodzi o wzór, którego dotyczy, patrz Cohen i in. (2003) , Applied Multiple Regress / Correlation Analysis for the Behavioural Sciences , str. 88:

S.miR2)=4R2)(1-R2))2)(n-k-1)2)(n2)-1)(n+3))

Zatem 95% CI to Twój .R2)±2)S.miR2)

Durden
źródło
3
(1-R2))R2)R2)n-k-1>60k+1liczy przecięcie plus liczbę zmiennych niezależnych.) Przydałoby się zobaczyć działający przykład obsługiwany przez symulację, ponieważ ten przedział wygląda na zbyt szeroki.
whuber
Według Wishart (1931) ta formuła jest nieodpowiednia dla nietypowych rozkładów.
abukaj