Pasma ufności dla linii QQ

14

To pytanie nie dotyczy konkretnie R, ale postanowiłem Rto zilustrować.

Rozważ kod do tworzenia pasm ufności wokół (normalnej) linii qq:

library(car)
library(MASS)
b0<-lm(deaths~.,data=road)
qqPlot(b0$resid,pch=16,line="robust")

Szukam wyjaśnienia (lub alternatywnego linku do dokumentu papierowego / internetowego wyjaśniającego), w jaki sposób zbudowane są te przedziały ufności (widziałem odniesienie do Foxa 2002 w plikach pomocy R, ale niestety nie mam tego książka przydatna).

Moje pytanie zostanie uściślone na przykładzie. Oto jak Roblicza te poszczególne elementy CI (skróciłem / uprościłem używany kod car::qqPlot)

x<-b0$resid
good<-!is.na(x)
ord<-order(x[good])
ord.x<-x[good][ord]
n<-length(ord.x)
P<-ppoints(n)
z<-qnorm(P)
plot(z,ord.x,type="n")
coef<-coef(rlm(ord.x~z))
a<-coef[1]
b<-coef[2]
abline(a,b,col="red",lwd=2)
conf<-0.95
zz<-qnorm(1-(1-conf)/2)
SE<-(b/dnorm(z))*sqrt(P*(1-P)/n)     #[WHY?]
fit.value<-a+b*z
upper<-fit.value+zz*SE
lower<-fit.value-zz*SE
lines(z,upper,lty=2,lwd=2,col="red")
lines(z,lower,lty=2,lwd=2,col="red")

Pytanie brzmi: jakie jest uzasadnienie wzoru użytego do obliczenia tych SE (np. Linia SE<-(b/dnorm(z))*sqrt(P*(1-P)/n)).

FWIW ta formuła bardzo różni się od formuły zwykłych pasm ufności stosowanych w regresji liniowej

użytkownik603
źródło
2
Oczekuję, że ma to związek z rozkładem statystyk zamówień a w szczególnościwynik asymptotyczny:X(np)AN(F-1(p
faX(k)(x)=n!(k-1)!(n-k)![faX(x)]k-1[1-faX(x)]n-kfaX(x)
X(np)ZAN.(fa-1(p),p(1-p)n[fa(fa-1(p))]2))
Glen_b
4
@Glen_b ma rację. John Fox pisze na stronach 35-36: „błędu standardowego zlecenia statystycznego jest S E ( X ( i ) ) = σX(ja) gdziep(z)jest funkcją gęstości prawdopodobieństwa odpowiadającą CDFP(z). Wartości wzdłuż dopasowanej linii są przezX(ı)=μ+σooı. W przybliżeniu 95% ufności "kopercie" wokół dopasowanej linii jest zatemX(I)±2xSE(X(I)).”
S.mi(X(ja))=σ^p(zja)P.ja(1-P.ja)n
p(z)P.(z)X^(ja)=μ^+σ^zjaX^(ja)±2)×S.mi(X(ja))
COOLSerdash
2
Myślę jedyną rzeczą, która pozostaje zobaczyć, że jest szacowana poprzez ( P ( z I ) / σ ) w równaniu COOLSerdash boiska. fa(fa-1(p))(p(zja)/σ^)
Glen_b

Odpowiedzi:

6

faX(k)(x)=n!(k-1)!(n-k)![faX(x)]k-1[1-faX(x)]n-kfaX(x)
a w szczególności wynik asymptotyczny :
X(np)ZAN.(fa-1(p),p(1-p)n[fa(fa-1(p))]2))

Jak wspomina COOLSerdash w komentarzach, John Fox [1] pisze na stronach 35-36:

Standardowy błąd statystyki zamówienia X(ja) jest

S.mi(X(ja))=σ^p(zja)P.ja(1-P.ja)n
gdzie p(z) to funkcja gęstości prawdopodobieństwa odpowiadająca CDF P.(z). Wartości wzdłuż dopasowanej linii są podane przezX^(ja)=μ^+σ^zja. Zatem „obwiednia” ufności około 95% wokół dopasowanej linii wynosiX^(ja)±2)×S.mi(X(ja)).

Następnie musimy to rozpoznać fa(fa-1(p)) jest szacowany przez (p(zja)/σ^).

[1] Fox, J. (2008),
Applied Regression Analysis and Generalized Linear Models, 2nd Ed. ,
Sage Publications, Inc

Glen_b - Przywróć Monikę
źródło