Pokaż oszacowanie jest zbieżne do percentyla dzięki statystykom zamówień

10

Niech X1,X2,,X3n będzie sekwencją losowych zmiennych losowych próbkowanych ze stabilnego rozkładu alfa , o parametrach α=1.5,β=0,c=1.0,μ=1.0 .

Rozważmy teraz sekwencję Y1,Y2,,Yn , gdzie Yj+1=X3j+1X3j+2X3j+31 , dla j=0,,n1 .

Chcę oszacować 0.01 percentyl.

Moim pomysłem jest wykonanie czegoś w rodzaju symulacji Monte-Carlo:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

Wywołanie średni wszystkim próbki 0.01 percentyla obliczonego jako μ n oraz ich wariancji σ 2 n , aby obliczyć odpowiedni przedział ufności dla ľ , I uciekać się do silnej postaci Centralnego twierdzenia granicznego :μ^nσ^n2μ

Niech będą ciągiem iid zmiennych losowych o E [ X i ] = μ i 0 < V [ X i ] = σ 2 < . Określić jako średnią próbek ľ n = ( 1 / n ) Ď n i = 1 X I . Następnie ( μ n - μ ) /X1,X2,E[Xi]=μ0<V[Xi]=σ2<μ^n=(1/n)i=1nXi ma ograniczający standardowego rozkładu normalnego, czyli μ n -| j(μ^nμ)/σ2/n

μ^nμσ2/nnN(0,1).

i twierdzenie Slutksy'ego, aby dojść do wniosku, że

nμ^nμσ^n2nN(0,1).

Wówczas a przedział ufności dla μ wynosi(1α)×100%μ

gdziez1-α/2jestkwantylem(1-α/2)standardowego rozkładu normalnego.

Iα=[μ^nz1α/2σ^n2n,μ^n+z1α/2σ^n2n],
z1α/2(1α/2)

Pytania:

1) Czy moje podejście jest prawidłowe? Jak mogę uzasadnić zastosowanie CLT? To znaczy, jak mogę pokazać, że wariancja jest skończona? (Czy muszę patrzeć wariancji ? Bo nie sądzę, że jest skończony ...)Yj

2) Jak mogę wykazać, że średnia z wszystkich obliczonych próbek percentyli jest zbieżna z prawdziwą wartością 0,01 - percentyla? (Powinienem użyć statystyk zamówień, ale nie jestem pewien, jak postępować; doceniamy referencje).0.010.01

Maya
źródło
3
Wszystkie metody zastosowane do przykładowych median ze strony stats.stackexchange.com/questions/45124 dotyczą także innych percentyli. W efekcie twoje pytanie jest identyczne z tym, ale jedynie zastępuje 50 percentyl pierwszym (a może 0,01?) Percentylem.
whuber
@ whuber, twoja odpowiedź na to pytanie jest bardzo dobra. jednak Glen_b stwierdza na końcu swojego postu (zaakceptowana odpowiedź), że przybliżona normalność „nie dotyczy ekstremalnych kwantyli, ponieważ CLT tam nie wchodzi (średnia Z nie będzie asymptotycznie normalna Potrzebujesz różnych teorii dla ekstremalnych wartości ". Jak powinienem być zaniepokojony tym stwierdzeniem?
Maya
2
Uważam, że tak naprawdę nie miał na myśli ekstremalnych kwantyli , ale same skrajności . (W rzeczywistości skorygował ten upływ na końcu tego samego zdania, określając je jako „wartości ekstremalne”). Różnica polega na tym, że skrajny kwantyl, taki jak percentyl 0,01 (który oznacza dolną 1/10000 dystrybucja) ustabilizuje się w granicach, ponieważ coraz więcej danych w próbce nadal spadnie poniżej, a coraz więcej spadnie powyżej tego percentyla. Z ekstremum (takim jak maksimum lub minimum), które już nie ma miejsca.
whuber
Jest to problem, który należy rozwiązać na ogół za pomocą empirycznej teorii procesów. Pomocna byłaby pomoc dotycząca twojego poziomu szkolenia.
AdamO,

Odpowiedzi:

2

Wariancja nie jest skończona. Y Jest tak, ponieważ alfa-stabilne zmienna z alfa = 3 / 2 (o rozkładzie Holtzmark ) ma skończoną oczekiwanie jj, ale jego wariancja jest nieskończony. Gdyby Y miał skończoną wariancję σ 2 , to wykorzystując niezależność Xi i definicję wariancji, moglibyśmy obliczyćXα=3/2μYσ2Xi

σ2=Var(Y)=E(Y2)E(Y)2=E(X12X22X32)E(X1X2X3)2=E(X2)3(E(X)3)2=(Var(X)+E(X)2)3μ6=(Var(X)+μ2)3μ6.

This cubic equation in Var(X) has at least one real solution (and up to three solutions, but no more), implying Var(X) would be finite--but it's not. This contradiction proves the claim.


Let's turn to the second question.

Any sample quantile converges to the true quantile as the sample grows large. The next few paragraphs prove this general point.

q=0.0101FZq=F1(q)qth

F1ϵ>0q<qq+>q

F(Zqϵ)=q,F(Zq+ϵ)=q+,

and that as ϵ0, the limit of the interval [q,q+] is {q}.

Consider any iid sample of size n. The number of elements of this sample that are less than Zq has a Binomial(q,n) distribution, because each element independently has a chance q of being less than Zq. The Central Limit Theorem (the usual one!) implies that for sufficiently large n, the number of elements less than Zq is given by a Normal distribution with mean nq and variance nq(1q) (to an arbitrarily good approximation). Let the CDF of the standard Normal distribution be Φ. The chance that this quantity exceeds nq therefore is arbitrarily close to

1Φ(nqnqnq(1q))=1Φ(nqqq(1q)).

Because the argument on Φ on the right hand side is a fixed multiple of n, it grows arbitrarily large as n grows. Since Φ is a CDF, its value approaches arbitrarily close to 1, showing the limiting value of this probability is zero.

In words: in the limit, it is almost surely the case that nq of the sample elements are not less than Zq. An analogous argument proves it is almost surely the case that nq of the sample elements are not greater than Zq+. Together, these imply the q quantile of a sufficiently large sample is extremely likely to lie between Zqϵ and Zq+ϵ.

That's all we need in order to know that simulation will work. You may choose any desired degree of accuracy ϵ and confidence level 1α and know that for a sufficiently large sample size n, the order statistic closest to nq in that sample will have a chance at least 1α of being within ϵ of the true quantile Zq.


Having established that a simulation will work, the rest is easy. Confidence limits can be obtained from limits for the Binomial distribution and then back-transformed. Further explanation (for the q=0.50 quantile, but generalizing to all quantiles) can be found in the answers at Central limit theorem for sample medians.

Figure: histogram of 0.01 quantiles of Y with n=300 for 1000 iterations

The q=0.01 quantile of Y is negative. Its sampling distribution is highly skewed. To reduce the skew, this figure shows a histogram of the logarithms of the negatives of 1,000 simulated samples of n=300 values of Y.

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)
whuber
źródło