Jak uzyskać przedział ufności dla percentyla?

15

Mam kilka surowych wartości danych, które są kwotami w dolarach, i chcę znaleźć przedział ufności dla percentyla tych danych. Czy istnieje wzór na taki przedział ufności?

Graphth
źródło

Odpowiedzi:

21

To pytanie, które dotyczy typowej sytuacji, zasługuje na prostą, przybliżoną odpowiedź. Na szczęście jest jeden.

Załóżmy, że są niezależnymi wartości od nieznanego dystrybucji F którego q th kwantyl będę pisać F - 1 ( q ) . Oznacza to, że każdy X i ma szansę (przynajmniej) q być mniejszy lub równyX1,,XnFqthF1(q)Xjaq . W związku z tym liczby X i mniejszą niż lub równą F - 1 ( P ) zawiera dwustronną ( Nfa-1(q)Xjafa-1(q) dystrybucja.(n,q)

Zmotywowani tym prostym rozważaniem Gerald Hahn i William Meeker w swoim podręczniku „ Interwały statystyczne” (Wiley 1991) piszą

Dwustronny, pozbawiony dystrybucji konserwatywny przedział ufności dla F - 1 ( q ) jest uzyskiwany ... jako [ X ( l ) , X ( u ) ]100(1-α)%fa-1(q)[X(l),X(u)]

gdzie tostatystyki rzędudla próbki. Mówią dalejX(1)X(2))X(n)

Można wybrać liczby całkowite symetrycznie (lub prawie symetrycznie) wokół q ( n + 1 ) i jak najbliżej siebie, z zastrzeżeniem wymagań, że B ( u - 1 ; n , q ) - B ( l - 1 ; n , q ) 1 - α .0lunq(n+1)

(1)B(u1;n,q)B(l1;n,q)1α.

Wyrażenie po lewej to szansa, że zmienna dwumianowa ma jedną z wartości { l , l + 1 , , u - 1 } . Oczywiście, to prawdopodobieństwo, że wiele wartości danych x i mieszczące się w dolnym 100 q % rozkładu nie jest ani zbyt małe (mniejsze niż l ), ani też zbyt duża ( U lub więcej).(n,q){l,l+1,,u1}Xi100q%lu

Hahn i Meeker podają kilka użytecznych uwag, które zacytuję.

Poprzedni przedział jest zachowawczy, ponieważ rzeczywisty poziom ufności, podany po lewej stronie równania , jest większy niż określona wartość 1 - α . ...(1)1α

Czasami niemożliwe jest zbudowanie przedziału statystycznego bez dystrybucji, który ma przynajmniej pożądany poziom ufności. Problem ten jest szczególnie dotkliwy przy szacowaniu percentyli w ogonie rozkładu z małej próbki. ... W niektórych przypadkach, analityk może poradzić sobie z tym problemem poprzez wybranie oraz u niesymetrycznie. Inną alternatywą może być zastosowanie obniżonego poziomu ufności.lu


Przeanalizujmy przykład (również dostarczony przez Hahna i Meekera). Dostarczają uporządkowany zestaw „pomiarów związku z procesu chemicznego” i proszą o 100 ( 1 - α ) = 95 % przedział ufności dlan=100100(1α)=95% percentyla. Twierdzą, że l = 85, a u = 97 będzie działać.q=0.90l=85u=97

Rysunek przedstawiający rozkład dwumianowy (100, 0,90)

Całkowite prawdopodobieństwo tego przedziału, jak pokazują niebieskie słupki na rysunku, wynosi : jest tak blisko, jak można dostać się do 95 % , ale wciąż jest powyżej niego, wybierając dwa odcięcia i eliminując wszystkie szanse w lewym ogonie i prawy ogon, który jest poza tymi odcięciami.95.3%95%

Oto dane pokazane w kolejności, pomijając wartości ze środka:81

1.491.662.0524.3324.7225.4625.6725.7726.6428.2828.2829.0729.1631.1431.8333.2437.3253.4358.11

największa jest 24.33 i85th24.33 największa jest 33.24 . Przedział wynosi zatem [ 24,33 , 33,24 ] .97th33.24[24.33,33.24]

Zinterpretujmy to. Procedura ta miała mieć przynajmniej szans na pokrycie 90 th percentyla. Jeśli to rzeczywiście percentyl przekracza 33,24 , co oznacza, że będziemy zaobserwowali 97 lub więcej z 100 wartościami w naszej próbie, które są poniżej 90 th95%90th33.249710090th percentyla. To za dużo. Jeśli to percentyla jest mniejsza niż , co oznacza, że będziemy zaobserwowali 84 lub mniej wartości w naszej próbie, które są poniżej 90 th percentyla. To za mało.24.338490th W obu przypadkach - dokładnie tak, jak wskazano przez czerwonych pasków na rysunku - byłoby dowodów przeciwko percentyla leżący wewnątrz tego przedziału.90th


Jednym ze sposobów na znalezienie dobrych wyborów il jest poszukiwanie zależności od potrzeb. Oto metoda, która rozpoczyna się od symetrycznego przybliżonym przedziale a następnie wyszukiwania poprzez zmianę zarówno l oraz u nawet o 2 , aby wybrać interwał z dobrym zasięgiem (jeśli to możliwe). Ilustruje tokod. Jest skonfigurowany do sprawdzania zasięgu w poprzednim przykładzie dla rozkładu normalnego. Jego wydajność toulu2R

Średni zasięg symulacji wynosił 0,9503; oczekiwany zasięg to 0,9523

Zgodność między symulacją a oczekiwaniami jest doskonała.

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))
Whuber
źródło
4

Pochodzenie

τqτXFX1(τ)q^τ=F^1(τ)

n(q^τqτ)

Po pierwsze, potrzebujemy asymptotycznego rozkładu empirycznego cdf.

F^(x)=1n1{Xi<x}1{Xi<x}P(Xi<x)=F(x)F(x)(1F(x))

n(F^(x)F(x))N(0,F(x)(1F(x)))(1)

Ponieważ odwrotność jest funkcją ciągłą, możemy zastosować metodę delta.

n(y¯μy)N(0,σ2)g()n(g(y¯)g(μy))N(0,σ2(g(μy))2)

x=qτg()=F1()

n(F1(F^(qτ))F1(F(qτ)))=n(q^τqτ)

F1(F^(qτ))F^1(F^(qτ))=q^τ

Teraz zastosuj wspomnianą powyżej metodę delta.

ddxF1(x)=1f(F1(x)) (inverse function theorem)

n(q^τqτ)N(0,F(qτ)(1F(qτ))f(F1(F(qτ)))2)=N(0,F(qτ)(1F(qτ))f(qτ)2)

Then, to construct the confidence interval, we need to calculate the standard error by plugging in sample counterparts of each of the terms in the variance above:

Result

So se(q^τ)=F^(q^τ)(1F^(q^τ))nf^(q^τ)2= τ(1τ)nf^(q^τ)2

And CI0.95(q^τ)=q^τ±1.96se(q^τ)

This will require you to estimate the density of X, but this should be pretty straightforward. Alternatively, you could bootstrap the CI pretty easily too.

bmciv
źródło
1
Could you expand your answer with contents from the linked article? Links may not work forever and then this answer would become less useful
Andy
1
What is the advantage of this asymptotic result based on density estimates compared to the distribution free c.i.based on the binomial distribution?
Michael M
Is this still based on the article you linked originally?
Nick Stauner
Yes, should I add that link back in? I think this is a well known result. I've seen it in class before and it is not hard to find by google. In a case like this, is it better to link to it or type it up, or both?
bmciv
I'd say both, and that you should edit it back in if this is quoted / derived entirely from it for the sake of proper attribution. Otherwise it might not matter whether you edit it, but in general, Stack Exchange policy is to discourage link-only answers to avoid link rot and as a matter of principle (the idea is to be an independent repository, not a link index – but I'm not sure how much of that scenario is more than an imaginary "slippery slope").
Nick Stauner